Question 1

Arsitektur penyimpanan apa yang digunakan BigQuery?

Accepted Answer

BigQuery menggunakan arsitektur serverless dengan penyimpanan kolom (columnar storage) yang disebut Capacitor. Arsitektur ini memisahkan storage dan compute, memungkinkan scaling independen dan tagihan terpisah. Columnar storage dioptimalkan untuk query analitik karena hanya membaca kolom yang diperlukan, secara signifikan mengurangi I/O.

Question 2

Apa keuntungan utama dari partitioning tabel di BigQuery?

Accepted Answer

Partitioning membagi tabel besar menjadi segmen yang lebih kecil berdasarkan kolom (biasanya tanggal). Selama query, BigQuery dapat melewati partisi yang tidak relevan (partition pruning), mengurangi jumlah data yang dipindai. Ini meningkatkan kinerja dan mengurangi biaya karena BigQuery menagih berdasarkan volume data yang diproses.

Question 3

Tipe partitioning apa yang tersedia di BigQuery?

Accepted Answer

BigQuery mendukung tiga tipe partitioning: berdasarkan kolom DATE atau TIMESTAMP (paling umum), berdasarkan rentang integer (INTEGER RANGE), dan berdasarkan waktu ingesti (_PARTITIONTIME). Partitioning berdasarkan tanggal direkomendasikan untuk data time-series karena memungkinkan partition pruning yang efisien pada filter tanggal.

BigQuery untuk Data Engineering

Arsitektur penyimpanan apa yang digunakan BigQuery?

Jawaban

Apa keuntungan utama dari partitioning tabel di BigQuery?

Jawaban

Tipe partitioning apa yang tersedia di BigQuery?

Jawaban

Apa perbedaan antara partitioning dan clustering di BigQuery?

Bagaimana cara mengoptimalkan biaya query di BigQuery?

Topik wawancara Data Engineering lainnya

Linux & Shell - Dasar-dasar

Git & GitHub - Dasar-dasar

Python lanjutan untuk Data Engineering

Docker - Dasar-dasar

Google Cloud Platform - Dasar-Dasar

CI/CD dan Kualitas Kode

Docker Compose

FastAPI - API Data

SQL Lanjutan untuk Data Engineering

Data Lake - Arsitektur dan Ingesti

PostgreSQL - Administrasi

Data Modeling untuk Data Engineering

Fivetran & Airbyte - Ingesti Data

dbt - Dasar

Apache Airflow - Dasar-Dasar

Kubernetes - Dasar-Dasar

dbt - Fitur lanjutan

Pola ETL / ELT / ETLT

Apache Airflow - Lanjutan

Airflow + dbt - Orkestrasi Pipeline

PySpark - Pemrosesan Skala Besar

Google Pub/Sub - Streaming Data

Apache Beam & Dataflow

Kubernetes - Produksi dan Penskalaan

Terraform - Infrastructure as Code

Database NoSQL

Data Architecture Modern

Monitoring dan Observability

IAM dan Keamanan Data

Kuasai Data Engineering untuk wawancara berikutnya