
ETL / ELT / ETLT ํจํด
ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, ๋ฉฑ๋ฑ์ฑ, ์๋ฌ ์ฒ๋ฆฌ, dead letter queue, ๋ฐ์ดํฐ ํ์ง, lineage
1ETL๊ณผ ELT์ ์ฃผ์ ์ฐจ์ด์ ์ ๋ฌด์์
๋๊น?
ETL๊ณผ ELT์ ์ฃผ์ ์ฐจ์ด์ ์ ๋ฌด์์ ๋๊น?
๋ต๋ณ
ETL(Extract-Transform-Load)์์๋ ๋ฐ์ดํฐ๊ฐ ๋์์ ๋ก๋๋๊ธฐ ์ ์ ์ค๊ฐ ์๋ฒ์์ ๋ณํ๋ฉ๋๋ค. ELT(Extract-Load-Transform)์์๋ ์์ ๋ฐ์ดํฐ๊ฐ ๋จผ์ ๋์(์ผ๋ฐ์ ์ผ๋ก ํด๋ผ์ฐ๋ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค)์ ๋ก๋๋ ํ ์ปดํจํ ํ์๋ฅผ ์ฌ์ฉํ์ฌ ๊ทธ ์์์ ์ง์ ๋ณํ๋ฉ๋๋ค. ELT๋ ํ๋ ฅ์ ์ธ ์ปดํจํ ํ์๋ฅผ ์ ๊ณตํ๋ BigQuery, Snowflake ๋๋ Redshift์ ๊ฐ์ ํด๋ผ์ฐ๋ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค์ ํจ๊ป ์ธ๊ธฐ๋ฅผ ์ป์์ต๋๋ค.
2์ ํต์ ์ธ ETL๊ณผ ๋น๊ตํ์ ๋ ELT ์ ๊ทผ ๋ฐฉ์์ ์ฃผ์ ์ด์ ์ ๋ฌด์์
๋๊น?
์ ํต์ ์ธ ETL๊ณผ ๋น๊ตํ์ ๋ ELT ์ ๊ทผ ๋ฐฉ์์ ์ฃผ์ ์ด์ ์ ๋ฌด์์ ๋๊น?
๋ต๋ณ
ELT ์ ๊ทผ ๋ฐฉ์์ ์ต์ ํด๋ผ์ฐ๋ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค(BigQuery, Snowflake, Redshift)์ ํ๋ ฅ์ ์ธ ์ปดํจํ ํ์๋ฅผ ํ์ฉํฉ๋๋ค. ๋ณ๋ชฉ ํ์์ด ๋ ์ ์๋ ๋ณ๋์ ๋ณํ ์ธํ๋ผ๋ฅผ ์ ์งํ๋ ๋์ , ๋ณํ์ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค์ ์ค์ผ์ผ๋ง ๊ธฐ๋ฅ์ ์ง์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์ด์ ๋ณต์ก์ฑ์ ์ค์ด๊ณ ์๋ ๋ฆฌ์์ค ํ๋ก๋น์ ๋ ์์ด ํจ์ฌ ๋ ๋ง์ ๋ฐ์ดํฐ ๋ณผ๋ฅจ์ ์ฒ๋ฆฌํ ์ ์๊ฒ ํฉ๋๋ค.
3ETLT ํจํด์ด๋ ๋ฌด์์ด๋ฉฐ ์ธ์ ๊ด๋ จ์ด ์์ต๋๊น?
ETLT ํจํด์ด๋ ๋ฌด์์ด๋ฉฐ ์ธ์ ๊ด๋ จ์ด ์์ต๋๊น?
๋ต๋ณ
ETLT๋ ๋ ๊ฐ์ง ์ ๊ทผ ๋ฐฉ์์ ๊ฒฐํฉํฉ๋๋ค: ์ถ์ถ ์ค์ ์ฒซ ๋ฒ์งธ ๊ฐ๋ฒผ์ด ๋ณํ(์ ์ , ํํฐ๋ง, ์ต๋ช ํ)์ด ์ํ๋ ๋ค์, ๋ฐ์ดํฐ๊ฐ ๋ก๋๋๊ณ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค์์ ๋ ๋ณต์กํ ๋ณํ์ด ์ ์ฉ๋ฉ๋๋ค. ์ด ํจํด์ ์ปดํ๋ผ์ด์ธ์ค ์ด์ (๋ก๋ ์ ๋ฏผ๊ฐํ ๋ฐ์ดํฐ ๋ง์คํน), ๋ณผ๋ฅจ ๊ฐ์(์กฐ๊ธฐ ํํฐ๋ง) ๋๋ ์ด๊ธฐ์ข ์์ค ํ์ ์ ๊ทํ๋ฅผ ์ํด ํน์ ๋ณํ์ ์ ์คํธ๋ฆผ์์ ์ํํด์ผ ํ ๋ ์ ์ฉํฉ๋๋ค.
๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๋งฅ๋ฝ์์ ๋ฉฑ๋ฑ์ฑ์ด๋ ๋ฌด์์ ๋๊น?
ํ ์ด๋ธ์ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ํ ๋ ๋ฉฑ๋ฑ์ฑ์ ์ด๋ป๊ฒ ๊ตฌํํฉ๋๊น?
+17 ๋ฉด์ ์ง๋ฌธ
๊ธฐํ Data Engineering ๋ฉด์ ์ฃผ์
Linux & Shell - ๊ธฐ์ด
Git & GitHub - ๊ธฐ์ด
๋ฐ์ดํฐ ์์ง๋์ด๋ง์ ์ํ ๊ณ ๊ธ Python
Docker - ๊ธฐ์ด
Google Cloud Platform - ๊ธฐ์ด
CI/CD ๋ฐ ์ฝ๋ ํ์ง
Docker Compose
FastAPI - ๋ฐ์ดํฐ API
Data Engineering์ ์ํ ๊ณ ๊ธ SQL
Data Lake - ์ํคํ ์ฒ ๋ฐ ์์ง
๋ฐ์ดํฐ ์์ง๋์ด๋ง์ ์ํ BigQuery
PostgreSQL - ๊ด๋ฆฌ
Data Engineering์ ์ํ Data Modeling
Fivetran & Airbyte - ๋ฐ์ดํฐ ์์ง
dbt - ๊ธฐ์ด
Apache Airflow - ๊ธฐ์ด
Kubernetes - ๊ธฐ์ด
dbt - ๊ณ ๊ธ ๊ธฐ๋ฅ
Apache Airflow - ๊ณ ๊ธ
Airflow + dbt - ํ์ดํ๋ผ์ธ ์ค์ผ์คํธ๋ ์ด์
PySpark - ๋๊ท๋ชจ ์ฒ๋ฆฌ
Google Pub/Sub - ๋ฐ์ดํฐ ์คํธ๋ฆฌ๋ฐ
Apache Beam & Dataflow
Kubernetes - ํ๋ก๋์ ๋ฐ ์ค์ผ์ผ๋ง
Terraform - Infrastructure as Code
NoSQL ๋ฐ์ดํฐ๋ฒ ์ด์ค
๋ชจ๋ Data Architecture
๋ชจ๋ํฐ๋ง ๋ฐ ๊ด์ฐฐ ๊ฐ๋ฅ์ฑ
IAM ๋ฐ ๋ฐ์ดํฐ ๋ณด์
๋ค์ ๋ฉด์ ์ ์ํด Data Engineering์ ๋ง์คํฐํ์ธ์
๋ชจ๋ ์ง๋ฌธ, flashcards, ๊ธฐ์ ํ ์คํธ, ์ฝ๋ ๋ฆฌ๋ทฐ ์ฐ์ต, ๋ฉด์ ์๋ฎฌ๋ ์ดํฐ์ ์ ๊ทผํ์ธ์.
๋ฌด๋ฃ๋ก ์์ํ๊ธฐ