
Data Architecture Modern
Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, tata kelola, data catalog, lineage
1Apa perbedaan mendasar antara Data Lake dan Data Warehouse?
Apa perbedaan mendasar antara Data Lake dan Data Warehouse?
Jawaban
Data Lake menyimpan data dalam format aslinya (raw) dengan schema diterapkan saat pembacaan (schema-on-read), memberikan fleksibilitas besar untuk eksplorasi. Data Warehouse menerapkan schema terstruktur saat penulisan (schema-on-write) dengan data yang ditransformasi dan dioptimasi untuk analytics. Data Lake mengutamakan fleksibilitas dan penyimpanan masif berbiaya rendah, sedangkan Data Warehouse mengutamakan performa query analitik dan kualitas data.
2Apa keuntungan utama arsitektur Lakehouse dibandingkan arsitektur Data Lake dan Data Warehouse yang terpisah?
Apa keuntungan utama arsitektur Lakehouse dibandingkan arsitektur Data Lake dan Data Warehouse yang terpisah?
Jawaban
Arsitektur Lakehouse menggabungkan yang terbaik dari kedua dunia: penyimpanan fleksibel dan hemat biaya Data Lake dengan kapabilitas ACID, performa query, dan tata kelola Data Warehouse. Ini menghilangkan duplikasi data antar sistem, mengurangi biaya dan kompleksitas sinkronisasi, sekaligus memungkinkan workload BI dan ML pada platform yang sama menggunakan format terbuka seperti Delta Lake, Iceberg, atau Hudi.
3Format tabel terbuka mana yang memungkinkan transaksi ACID pada Data Lake?
Format tabel terbuka mana yang memungkinkan transaksi ACID pada Data Lake?
Jawaban
Delta Lake, Apache Iceberg, dan Apache Hudi adalah tiga format tabel terbuka utama yang memungkinkan transaksi ACID pada Data Lake. Delta Lake, dikembangkan oleh Databricks, menggunakan transaction log untuk menjamin atomicity dan consistency. Iceberg, dibuat oleh Netflix, menawarkan manajemen partisi lanjutan dan schema evolution. Hudi, dikembangkan oleh Uber, unggul dalam skenario upsert dan CDC. Format-format ini mengubah penyimpanan objek sederhana menjadi Lakehouse dengan jaminan transaksional.
Apa prinsip fundamental dari Data Mesh?
Apa itu Data Contract dalam konteks Data Mesh?
+17 pertanyaan wawancara
Topik wawancara Data Engineering lainnya
Linux & Shell - Dasar-dasar
Git & GitHub - Dasar-dasar
Python lanjutan untuk Data Engineering
Docker - Dasar-dasar
Google Cloud Platform - Dasar-Dasar
CI/CD dan Kualitas Kode
Docker Compose
FastAPI - API Data
SQL Lanjutan untuk Data Engineering
Data Lake - Arsitektur dan Ingesti
BigQuery untuk Data Engineering
PostgreSQL - Administrasi
Data Modeling untuk Data Engineering
Fivetran & Airbyte - Ingesti Data
dbt - Dasar
Apache Airflow - Dasar-Dasar
Kubernetes - Dasar-Dasar
dbt - Fitur lanjutan
Pola ETL / ELT / ETLT
Apache Airflow - Lanjutan
Airflow + dbt - Orkestrasi Pipeline
PySpark - Pemrosesan Skala Besar
Google Pub/Sub - Streaming Data
Apache Beam & Dataflow
Kubernetes - Produksi dan Penskalaan
Terraform - Infrastructure as Code
Database NoSQL
Monitoring dan Observability
IAM dan Keamanan Data
Kuasai Data Engineering untuk wawancara berikutnya
Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.
Mulai gratis