
๋ชจ๋ Data Architecture
Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, ๊ฑฐ๋ฒ๋์ค, data catalog, lineage
1Data Lake์ Data Warehouse์ ๊ทผ๋ณธ์ ์ธ ์ฐจ์ด์ ์ ๋ฌด์์
๋๊น?
Data Lake์ Data Warehouse์ ๊ทผ๋ณธ์ ์ธ ์ฐจ์ด์ ์ ๋ฌด์์ ๋๊น?
๋ต๋ณ
Data Lake๋ ๋ฐ์ดํฐ๋ฅผ ๋ค์ดํฐ๋ธ(raw) ํ์์ผ๋ก ์ ์ฅํ๊ณ ์ฝ๊ธฐ ์์ ์ schema๋ฅผ ์ ์ฉ(schema-on-read)ํ์ฌ ํ์์ ํฐ ์ ์ฐ์ฑ์ ์ ๊ณตํฉ๋๋ค. Data Warehouse๋ ์ฐ๊ธฐ ์์ ์ ๊ตฌ์กฐํ๋ schema๋ฅผ ๊ฐ์ (schema-on-write)ํ๊ณ ๋ถ์์ ์ต์ ํ๋ ๋ณํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ดํฉ๋๋ค. Data Lake๋ ์ ์ฐ์ฑ๊ณผ ์ ๋น์ฉ ๋์ฉ๋ ์คํ ๋ฆฌ์ง๋ฅผ ์ฐ์ ์ํ๊ณ , Data Warehouse๋ ์ฟผ๋ฆฌ ์ฑ๋ฅ๊ณผ ๋ฐ์ดํฐ ํ์ง์ ์ฐ์ ์ํฉ๋๋ค.
2Data Lake์ Data Warehouse๋ฅผ ๋ถ๋ฆฌํ ์ํคํ
์ฒ์ ๋น๊ตํ์ฌ Lakehouse ์ํคํ
์ฒ์ ์ฃผ์ ์ฅ์ ์ ๋ฌด์์
๋๊น?
Data Lake์ Data Warehouse๋ฅผ ๋ถ๋ฆฌํ ์ํคํ ์ฒ์ ๋น๊ตํ์ฌ Lakehouse ์ํคํ ์ฒ์ ์ฃผ์ ์ฅ์ ์ ๋ฌด์์ ๋๊น?
๋ต๋ณ
Lakehouse ์ํคํ ์ฒ๋ ์์ชฝ ์ธ๊ณ์ ์ฅ์ ์ ๊ฒฐํฉํฉ๋๋ค: Data Lake์ ์ ์ฐํ๊ณ ๊ฒฝ์ ์ ์ธ ์คํ ๋ฆฌ์ง์ Data Warehouse์ ACID ๊ธฐ๋ฅ, ์ฟผ๋ฆฌ ์ฑ๋ฅ, ๊ฑฐ๋ฒ๋์ค๋ฅผ ํตํฉํฉ๋๋ค. ์ด๋ ์์คํ ๊ฐ ๋ฐ์ดํฐ ์ค๋ณต์ ์ ๊ฑฐํ๊ณ ๋๊ธฐํ ๋น์ฉ๊ณผ ๋ณต์ก์ฑ์ ์ค์ด๋ฉด์ Delta Lake, Iceberg, Hudi ๊ฐ์ ์คํ ํ์์ ์ฌ์ฉํ์ฌ ๋์ผํ ํ๋ซํผ์์ BI ๋ฐ ML ์ํฌ๋ก๋๋ฅผ ์คํํ ์ ์๊ฒ ํฉ๋๋ค.
3Data Lake์์ ACID ํธ๋์ญ์
์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์คํ ํ
์ด๋ธ ํ์์ ๋ฌด์์
๋๊น?
Data Lake์์ ACID ํธ๋์ญ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์คํ ํ ์ด๋ธ ํ์์ ๋ฌด์์ ๋๊น?
๋ต๋ณ
Delta Lake, Apache Iceberg, Apache Hudi๋ Data Lake์์ ACID ํธ๋์ญ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ธ ๊ฐ์ง ์ฃผ์ ์คํ ํ ์ด๋ธ ํ์์ ๋๋ค. Databricks๊ฐ ๊ฐ๋ฐํ Delta Lake๋ transaction log๋ฅผ ์ฌ์ฉํ์ฌ atomicity์ consistency๋ฅผ ๋ณด์ฅํฉ๋๋ค. Netflix๊ฐ ๋ง๋ Iceberg๋ ๊ณ ๊ธ ํํฐ์ ๊ด๋ฆฌ์ schema evolution์ ์ ๊ณตํฉ๋๋ค. Uber๊ฐ ๊ฐ๋ฐํ Hudi๋ upsert ๋ฐ CDC ์๋๋ฆฌ์ค์์ ๋ฐ์ด๋ฉ๋๋ค. ์ด๋ฌํ ํ์์ ๋จ์ํ ๊ฐ์ฒด ์คํ ๋ฆฌ์ง๋ฅผ ํธ๋์ญ์ ๋ณด์ฅ์ด ์๋ Lakehouse๋ก ๋ณํํฉ๋๋ค.
Data Mesh์ ๊ทผ๋ณธ ์์น์ ๋ฌด์์ ๋๊น?
Data Mesh ์ปจํ ์คํธ์์ Data Contract๋ ๋ฌด์์ ๋๊น?
+17 ๋ฉด์ ์ง๋ฌธ
๊ธฐํ Data Engineering ๋ฉด์ ์ฃผ์
Linux & Shell - ๊ธฐ์ด
Git & GitHub - ๊ธฐ์ด
๋ฐ์ดํฐ ์์ง๋์ด๋ง์ ์ํ ๊ณ ๊ธ Python
Docker - ๊ธฐ์ด
Google Cloud Platform - ๊ธฐ์ด
CI/CD ๋ฐ ์ฝ๋ ํ์ง
Docker Compose
FastAPI - ๋ฐ์ดํฐ API
Data Engineering์ ์ํ ๊ณ ๊ธ SQL
Data Lake - ์ํคํ ์ฒ ๋ฐ ์์ง
๋ฐ์ดํฐ ์์ง๋์ด๋ง์ ์ํ BigQuery
PostgreSQL - ๊ด๋ฆฌ
Data Engineering์ ์ํ Data Modeling
Fivetran & Airbyte - ๋ฐ์ดํฐ ์์ง
dbt - ๊ธฐ์ด
Apache Airflow - ๊ธฐ์ด
Kubernetes - ๊ธฐ์ด
dbt - ๊ณ ๊ธ ๊ธฐ๋ฅ
ETL / ELT / ETLT ํจํด
Apache Airflow - ๊ณ ๊ธ
Airflow + dbt - ํ์ดํ๋ผ์ธ ์ค์ผ์คํธ๋ ์ด์
PySpark - ๋๊ท๋ชจ ์ฒ๋ฆฌ
Google Pub/Sub - ๋ฐ์ดํฐ ์คํธ๋ฆฌ๋ฐ
Apache Beam & Dataflow
Kubernetes - ํ๋ก๋์ ๋ฐ ์ค์ผ์ผ๋ง
Terraform - Infrastructure as Code
NoSQL ๋ฐ์ดํฐ๋ฒ ์ด์ค
๋ชจ๋ํฐ๋ง ๋ฐ ๊ด์ฐฐ ๊ฐ๋ฅ์ฑ
IAM ๋ฐ ๋ฐ์ดํฐ ๋ณด์
๋ค์ ๋ฉด์ ์ ์ํด Data Engineering์ ๋ง์คํฐํ์ธ์
๋ชจ๋ ์ง๋ฌธ, flashcards, ๊ธฐ์ ํ ์คํธ, ์ฝ๋ ๋ฆฌ๋ทฐ ์ฐ์ต, ๋ฉด์ ์๋ฎฌ๋ ์ดํฐ์ ์ ๊ทผํ์ธ์.
๋ฌด๋ฃ๋ก ์์ํ๊ธฐ