
Data Lake - Arsitektur dan Ingesti
Arsitektur Data Lake, zona (raw/refined/curated), format (Parquet, Avro, JSON), ingesti, partisi
1Apa itu Data Lake?
Apa itu Data Lake?
Jawaban
Data Lake adalah sistem penyimpanan terpusat yang mampu menyimpan data mentah dalam format aslinya, baik terstruktur, semi-terstruktur, maupun tidak terstruktur. Berbeda dengan Data Warehouse yang menerapkan skema saat menulis (schema-on-write), Data Lake menerapkan skema saat membaca (schema-on-read), menawarkan fleksibilitas maksimal untuk eksplorasi dan analisis data.
2Apa perbedaan utama antara schema-on-write dan schema-on-read?
Apa perbedaan utama antara schema-on-write dan schema-on-read?
Jawaban
Schema-on-write menerapkan validasi dan transformasi data sebelum penyimpanan, memastikan struktur yang konsisten tetapi membatasi fleksibilitas. Schema-on-read menyimpan data dalam format mentah dan menerapkan skema hanya saat membaca, menawarkan fleksibilitas ingesti maksimal tetapi memerlukan pemrosesan saat mengakses data.
3Apa tiga zona klasik dari Data Lake?
Apa tiga zona klasik dari Data Lake?
Jawaban
Arsitektur Data Lake standar terdiri dari tiga zona: Raw (Bronze) untuk data mentah yang belum ditransformasi, Refined (Silver) untuk data yang dibersihkan dan dinormalisasi, dan Curated (Gold) untuk data agregat yang siap dikonsumsi. Organisasi berlapis ini memfasilitasi tata kelola, keterlacakan, dan kualitas data.
Apa peran zona Raw (Bronze) dalam Data Lake?
Format file mana yang paling cocok untuk menyimpan data analitik besar dalam Data Lake?
+17 pertanyaan wawancara
Topik wawancara Data Engineering lainnya
Linux & Shell - Dasar-dasar
Git & GitHub - Dasar-dasar
Python lanjutan untuk Data Engineering
Docker - Dasar-dasar
Google Cloud Platform - Dasar-Dasar
CI/CD dan Kualitas Kode
Docker Compose
FastAPI - API Data
SQL Lanjutan untuk Data Engineering
BigQuery untuk Data Engineering
PostgreSQL - Administrasi
Data Modeling untuk Data Engineering
Fivetran & Airbyte - Ingesti Data
dbt - Dasar
Apache Airflow - Dasar-Dasar
Kubernetes - Dasar-Dasar
dbt - Fitur lanjutan
Pola ETL / ELT / ETLT
Apache Airflow - Lanjutan
Airflow + dbt - Orkestrasi Pipeline
PySpark - Pemrosesan Skala Besar
Google Pub/Sub - Streaming Data
Apache Beam & Dataflow
Kubernetes - Produksi dan Penskalaan
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture Modern
Monitoring dan Observability
IAM dan Keamanan Data
Kuasai Data Engineering untuk wawancara berikutnya
Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.
Mulai gratis