Data Engineering

Data Lake - Arsitektur dan Ingesti

Arsitektur Data Lake, zona (raw/refined/curated), format (Parquet, Avro, JSON), ingesti, partisi

20 pertanyaan wawancaraยท
Mid-Level
1

Apa itu Data Lake?

Jawaban

Data Lake adalah sistem penyimpanan terpusat yang mampu menyimpan data mentah dalam format aslinya, baik terstruktur, semi-terstruktur, maupun tidak terstruktur. Berbeda dengan Data Warehouse yang menerapkan skema saat menulis (schema-on-write), Data Lake menerapkan skema saat membaca (schema-on-read), menawarkan fleksibilitas maksimal untuk eksplorasi dan analisis data.

2

Apa perbedaan utama antara schema-on-write dan schema-on-read?

Jawaban

Schema-on-write menerapkan validasi dan transformasi data sebelum penyimpanan, memastikan struktur yang konsisten tetapi membatasi fleksibilitas. Schema-on-read menyimpan data dalam format mentah dan menerapkan skema hanya saat membaca, menawarkan fleksibilitas ingesti maksimal tetapi memerlukan pemrosesan saat mengakses data.

3

Apa tiga zona klasik dari Data Lake?

Jawaban

Arsitektur Data Lake standar terdiri dari tiga zona: Raw (Bronze) untuk data mentah yang belum ditransformasi, Refined (Silver) untuk data yang dibersihkan dan dinormalisasi, dan Curated (Gold) untuk data agregat yang siap dikonsumsi. Organisasi berlapis ini memfasilitasi tata kelola, keterlacakan, dan kualitas data.

4

Apa peran zona Raw (Bronze) dalam Data Lake?

5

Format file mana yang paling cocok untuk menyimpan data analitik besar dalam Data Lake?

+17 pertanyaan wawancara

Kuasai Data Engineering untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis