Data Engineering

Pola ETL / ELT / ETLT

ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, idempotensi, penanganan error, dead letter queue, kualitas data, lineage

20 pertanyaan wawancaraยท
Senior
1

Apa perbedaan utama antara ETL dan ELT?

Jawaban

Dalam ETL (Extract-Transform-Load), data ditransformasi di server perantara sebelum dimuat ke tujuan. Dalam ELT (Extract-Load-Transform), data mentah pertama kali dimuat ke tujuan (biasanya cloud data warehouse), lalu ditransformasi langsung di dalamnya menggunakan compute power-nya. ELT menjadi populer dengan cloud data warehouse seperti BigQuery, Snowflake atau Redshift yang menawarkan compute power elastis.

2

Apa keunggulan utama pendekatan ELT dibandingkan dengan ETL tradisional?

Jawaban

Pendekatan ELT memanfaatkan compute power elastis dari cloud data warehouse modern (BigQuery, Snowflake, Redshift). Alih-alih memelihara infrastruktur transformasi terpisah yang dapat menjadi bottleneck, transformasi langsung menggunakan kemampuan scaling data warehouse. Ini mengurangi kompleksitas operasional dan memungkinkan pemrosesan volume data yang jauh lebih besar tanpa provisioning resource manual.

3

Apa itu pola ETLT dan kapan relevan?

Jawaban

ETLT menggabungkan kedua pendekatan: transformasi ringan pertama dilakukan selama ekstraksi (pembersihan, penyaringan, anonimisasi), kemudian data dimuat dan transformasi yang lebih kompleks diterapkan di data warehouse. Pola ini berguna ketika transformasi tertentu harus dilakukan di hulu karena alasan compliance (masking data sensitif sebelum dimuat), pengurangan volume (penyaringan awal), atau normalisasi format sumber yang heterogen.

4

Apa itu idempotensi dalam konteks data pipeline?

5

Bagaimana mengimplementasikan idempotensi saat memuat data ke dalam tabel?

+17 pertanyaan wawancara

Kuasai Data Engineering untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis