
āļĢāļđāļāđāļāļ ETL / ELT / ETLT
ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, idempotence, āļāļēāļĢāļāļąāļāļāļēāļĢāļāđāļāļāļīāļāļāļĨāļēāļ, dead letter queue, āļāļļāļāļ āļēāļāļāđāļāļĄāļđāļĨ, lineage
1āļāļ§āļēāļĄāđāļāļāļāđāļēāļāļŦāļĨāļąāļāļĢāļ°āļŦāļ§āđāļēāļ ETL āđāļĨāļ° ELT āļāļ·āļāļāļ°āđāļĢ?
āļāļ§āļēāļĄāđāļāļāļāđāļēāļāļŦāļĨāļąāļāļĢāļ°āļŦāļ§āđāļēāļ ETL āđāļĨāļ° ELT āļāļ·āļāļāļ°āđāļĢ?
āļāļģāļāļāļ
āđāļ ETL (Extract-Transform-Load) āļāđāļāļĄāļđāļĨāļāļ°āļāļđāļāđāļāļĨāļāļāļāđāļāļīāļĢāđāļāđāļ§āļāļĢāđāļāļąāļ§āļāļĨāļēāļāļāđāļāļāļāļĩāđāļāļ°āļāļđāļāđāļŦāļĨāļāđāļāđāļēāļŠāļđāđāļāļĨāļēāļĒāļāļēāļ āđāļ ELT (Extract-Load-Transform) āļāđāļāļĄāļđāļĨāļāļīāļāļāļ°āļāļđāļāđāļŦāļĨāļāđāļāđāļēāļŠāļđāđāļāļĨāļēāļĒāļāļēāļāļāđāļāļ (āđāļāļĒāļāļąāđāļ§āđāļāļāļ·āļ cloud data warehouse) āļāļēāļāļāļąāđāļāļāļķāļāļāļđāļāđāļāļĨāļāđāļāļĒāļāļĢāļāđāļāļāļąāđāļāđāļāļĒāđāļāđ compute power āļāļāļāļĄāļąāļ ELT āđāļāđāļĢāļąāļāļāļ§āļēāļĄāļāļīāļĒāļĄāļāļĢāđāļāļĄāļāļąāļ cloud data warehouse āđāļāđāļ BigQuery, Snowflake āļŦāļĢāļ·āļ Redshift āļāļĩāđāđāļŦāđ compute power āđāļāļāļĒāļ·āļāļŦāļĒāļļāđāļ
2āļāđāļāđāļāđāđāļāļĢāļĩāļĒāļāļŦāļĨāļąāļāļāļāļāđāļāļ§āļāļēāļ ELT āđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļ ETL āđāļāļāļāļąāđāļāđāļāļīāļĄāļāļ·āļāļāļ°āđāļĢ?
āļāđāļāđāļāđāđāļāļĢāļĩāļĒāļāļŦāļĨāļąāļāļāļāļāđāļāļ§āļāļēāļ ELT āđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļ ETL āđāļāļāļāļąāđāļāđāļāļīāļĄāļāļ·āļāļāļ°āđāļĢ?
āļāļģāļāļāļ
āđāļāļ§āļāļēāļ ELT āđāļāđāļāļĢāļ°āđāļĒāļāļāđāļāļēāļ compute power āđāļāļāļĒāļ·āļāļŦāļĒāļļāđāļāļāļāļ cloud data warehouse āļŠāļĄāļąāļĒāđāļŦāļĄāđ (BigQuery, Snowflake, Redshift) āđāļāļāļāļĩāđāļāļ°āļĢāļąāļāļĐāļēāđāļāļĢāļāļŠāļĢāđāļēāļāļāļ·āđāļāļāļēāļāļāļēāļĢāđāļāļĨāļāļāđāļāļĄāļđāļĨāđāļĒāļāļāđāļēāļāļŦāļēāļāļāļĩāđāļāļēāļāļāļĨāļēāļĒāđāļāđāļāļāļāļāļ§āļ āļāļēāļĢāđāļāļĨāļāļāđāļāļĄāļđāļĨāļāļ°āđāļāđāļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāđāļāļāļēāļĢ scaling āļāļāļ data warehouse āđāļāļĒāļāļĢāļ āļŠāļīāđāļāļāļĩāđāļĨāļāļāļ§āļēāļĄāļāļąāļāļāđāļāļāđāļāļāļēāļĢāļāļģāđāļāļīāļāļāļēāļāđāļĨāļ°āļāđāļ§āļĒāđāļŦāđāļŠāļēāļĄāļēāļĢāļāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļĢāļīāļĄāļēāļāļāđāļāļĄāļđāļĨāļāļĩāđāļĄāļēāļāļāļķāđāļāļĄāļēāļāđāļāļĒāđāļĄāđāļāđāļāļāļāļąāļāļŠāļĢāļĢāļāļĢāļąāļāļĒāļēāļāļĢāļāđāļ§āļĒāļāļāđāļāļ
3āļĢāļđāļāđāļāļ ETLT āļāļ·āļāļāļ°āđāļĢāđāļĨāļ°āđāļŦāļĄāļēāļ°āļŠāļĄāđāļĄāļ·āđāļāđāļ?
āļĢāļđāļāđāļāļ ETLT āļāļ·āļāļāļ°āđāļĢāđāļĨāļ°āđāļŦāļĄāļēāļ°āļŠāļĄāđāļĄāļ·āđāļāđāļ?
āļāļģāļāļāļ
ETLT āļĢāļ§āļĄāļāļąāđāļāļŠāļāļāđāļāļ§āļāļēāļ: āļāļēāļĢāđāļāļĨāļāļāđāļāļĄāļđāļĨāđāļāļēāđ āļāļĢāļąāđāļāđāļĢāļāļāļ°āļāļģāđāļāļīāļāļāļēāļĢāļĢāļ°āļŦāļ§āđāļēāļāļāļēāļĢāđāļĒāļāļāđāļāļĄāļđāļĨ (āļāļēāļĢāļāļģāļāļ§āļēāļĄāļŠāļ°āļāļēāļ āļāļēāļĢāļāļĢāļāļ āļāļēāļĢāļāļģāđāļŦāđāđāļĄāđāļĢāļ°āļāļļāļāļąāļ§āļāļ) āļāļēāļāļāļąāđāļāļāđāļāļĄāļđāļĨāļāļ°āļāļđāļāđāļŦāļĨāļāđāļĨāļ°āļāļēāļĢāđāļāļĨāļāļāļĩāđāļāļąāļāļāđāļāļāļāļ§āđāļēāļāļ°āļāļđāļāļāļģāđāļāđāļāđāđāļ data warehouse āļĢāļđāļāđāļāļāļāļĩāđāļĄāļĩāļāļĢāļ°āđāļĒāļāļāđāđāļĄāļ·āđāļāļāđāļāļāļāļģāđāļāļīāļāļāļēāļĢāđāļāļĨāļāļāļēāļāļāļĒāđāļēāļāļāđāļāļāđāļģāļāđāļ§āļĒāđāļŦāļāļļāļāļĨāļāđāļēāļāļāļēāļĢāļāļāļīāļāļąāļāļīāļāļēāļĄāļāļāļĢāļ°āđāļāļĩāļĒāļ (āļāļēāļĢāļāļāļāļīāļāļāđāļāļĄāļđāļĨāļāļĩāđāļĨāļ°āđāļāļĩāļĒāļāļāđāļāļāļāđāļāļāđāļŦāļĨāļ) āļāļēāļĢāļĨāļāļāļĢāļīāļĄāļēāļ (āļāļēāļĢāļāļĢāļāļāļĨāđāļ§āļāļŦāļāđāļē) āļŦāļĢāļ·āļāļāļēāļĢāļāļģāđāļŦāđāļĢāļđāļāđāļāļāđāļŦāļĨāđāļāļāļĩāđāļĄāļēāļāļĩāđāļŦāļĨāļēāļāļŦāļĨāļēāļĒāđāļāđāļāļĄāļēāļāļĢāļāļēāļ
Idempotence āđāļāļāļĢāļīāļāļāļāļāļ data pipeline āļāļ·āļāļāļ°āđāļĢ?
āļ§āļīāļāļĩāļāļēāļĢāđāļāđāļāļēāļ idempotence āđāļĄāļ·āđāļāđāļŦāļĨāļāļāđāļāļĄāļđāļĨāļĨāļāđāļāļāļēāļĢāļēāļ?
+17 āļāļģāļāļēāļĄāļŠāļąāļĄāļ āļēāļĐāļāđ
āļŦāļąāļ§āļāđāļāļŠāļąāļĄāļ āļēāļĐāļāđ Data Engineering āļāļ·āđāļāđ
Linux & Shell - āļāļ·āđāļāļāļēāļ
Git & GitHub - āļāļ·āđāļāļāļēāļ
Python āļāļąāđāļāļŠāļđāļāļŠāļģāļŦāļĢāļąāļ Data Engineering
Docker - āļāļ·āđāļāļāļēāļ
Google Cloud Platform - āļāļ·āđāļāļāļēāļ
CI/CD āđāļĨāļ°āļāļļāļāļ āļēāļāđāļāđāļ
Docker Compose
FastAPI - Data API
SQL āļāļąāđāļāļŠāļđāļāļŠāļģāļŦāļĢāļąāļ Data Engineering
Data Lake - āļŠāļāļēāļāļąāļāļĒāļāļĢāļĢāļĄāđāļĨāļ°āļāļēāļĢāļāļģāđāļāđāļēāļāđāļāļĄāļđāļĨ
BigQuery āļŠāļģāļŦāļĢāļąāļ Data Engineering
PostgreSQL - āļāļēāļĢāļāļđāđāļĨāļĢāļ°āļāļ
Data Modeling āļŠāļģāļŦāļĢāļąāļ Data Engineering
Fivetran & Airbyte - āļāļēāļĢāļāļģāđāļāđāļēāļāđāļāļĄāļđāļĨ
dbt - āļāļ·āđāļāļāļēāļ
Apache Airflow - āļāļ·āđāļāļāļēāļ
Kubernetes - āļāļ·āđāļāļāļēāļ
dbt - āļāļĩāđāļāļāļĢāđāļāļąāđāļāļŠāļđāļ
Apache Airflow - āļāļąāđāļāļŠāļđāļ
Airflow + dbt - āļāļēāļĢāļāļąāļāļāļēāļĢ Pipeline
PySpark - āļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļāļēāļāđāļŦāļāđ
Google Pub/Sub - āļāļēāļĢāļŠāļāļĢāļĩāļĄāļāđāļāļĄāļđāļĨ
Apache Beam & Dataflow
Kubernetes - Production āđāļĨāļ° Scaling
Terraform - Infrastructure as Code
āļāļēāļāļāđāļāļĄāļđāļĨ NoSQL
Data Architecture āļŠāļĄāļąāļĒāđāļŦāļĄāđ
āļāļēāļĢāļĄāļāļāļīāđāļāļāļĢāđāđāļĨāļ°āļāļēāļĢāļŠāļąāļāđāļāļāļāļēāļĢāļāđ
IAM āđāļĨāļ°āļāļ§āļēāļĄāļāļĨāļāļāļ āļąāļĒāļāļāļāļāđāļāļĄāļđāļĨ
āđāļāļĩāđāļĒāļ§āļāļēāļ Data Engineering āļŠāļģāļŦāļĢāļąāļāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļāđāļāļĢāļąāđāļāļāļąāļāđāļ
āđāļāđāļēāļāļķāļāļāļģāļāļēāļĄāļāļąāđāļāļŦāļĄāļ flashcards āđāļāļāļāļāļŠāļāļāđāļāļāļāļīāļ āđāļāļāļāļķāļāļŦāļąāļ code review āđāļĨāļ°āļāļąāļ§āļāļģāļĨāļāļāļŠāļąāļĄāļ āļēāļĐāļāđ
āđāļĢāļīāđāļĄāđāļāđāļāļĢāļĩ