
Pola ETL / ELT / ETLT
ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, idempotensi, penanganan error, dead letter queue, kualitas data, lineage
1Apa perbedaan utama antara ETL dan ELT?
Apa perbedaan utama antara ETL dan ELT?
Jawaban
Dalam ETL (Extract-Transform-Load), data ditransformasi di server perantara sebelum dimuat ke tujuan. Dalam ELT (Extract-Load-Transform), data mentah pertama kali dimuat ke tujuan (biasanya cloud data warehouse), lalu ditransformasi langsung di dalamnya menggunakan compute power-nya. ELT menjadi populer dengan cloud data warehouse seperti BigQuery, Snowflake atau Redshift yang menawarkan compute power elastis.
2Apa keunggulan utama pendekatan ELT dibandingkan dengan ETL tradisional?
Apa keunggulan utama pendekatan ELT dibandingkan dengan ETL tradisional?
Jawaban
Pendekatan ELT memanfaatkan compute power elastis dari cloud data warehouse modern (BigQuery, Snowflake, Redshift). Alih-alih memelihara infrastruktur transformasi terpisah yang dapat menjadi bottleneck, transformasi langsung menggunakan kemampuan scaling data warehouse. Ini mengurangi kompleksitas operasional dan memungkinkan pemrosesan volume data yang jauh lebih besar tanpa provisioning resource manual.
3Apa itu pola ETLT dan kapan relevan?
Apa itu pola ETLT dan kapan relevan?
Jawaban
ETLT menggabungkan kedua pendekatan: transformasi ringan pertama dilakukan selama ekstraksi (pembersihan, penyaringan, anonimisasi), kemudian data dimuat dan transformasi yang lebih kompleks diterapkan di data warehouse. Pola ini berguna ketika transformasi tertentu harus dilakukan di hulu karena alasan compliance (masking data sensitif sebelum dimuat), pengurangan volume (penyaringan awal), atau normalisasi format sumber yang heterogen.
Apa itu idempotensi dalam konteks data pipeline?
Bagaimana mengimplementasikan idempotensi saat memuat data ke dalam tabel?
+17 pertanyaan wawancara
Topik wawancara Data Engineering lainnya
Linux & Shell - Dasar-dasar
Git & GitHub - Dasar-dasar
Python lanjutan untuk Data Engineering
Docker - Dasar-dasar
Google Cloud Platform - Dasar-Dasar
CI/CD dan Kualitas Kode
Docker Compose
FastAPI - API Data
SQL Lanjutan untuk Data Engineering
Data Lake - Arsitektur dan Ingesti
BigQuery untuk Data Engineering
PostgreSQL - Administrasi
Data Modeling untuk Data Engineering
Fivetran & Airbyte - Ingesti Data
dbt - Dasar
Apache Airflow - Dasar-Dasar
Kubernetes - Dasar-Dasar
dbt - Fitur lanjutan
Apache Airflow - Lanjutan
Airflow + dbt - Orkestrasi Pipeline
PySpark - Pemrosesan Skala Besar
Google Pub/Sub - Streaming Data
Apache Beam & Dataflow
Kubernetes - Produksi dan Penskalaan
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture Modern
Monitoring dan Observability
IAM dan Keamanan Data
Kuasai Data Engineering untuk wawancara berikutnya
Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.
Mulai gratis