Data Engineering

DATA

Kurikulum Data Engineering komprehensif yang mencakup seluruh rantai produksi data. Dari pengaturan lingkungan dengan Docker dan GCP hingga orkestrasi pipeline dengan Airflow dan dbt, melalui pembuatan Data Warehouse dengan BigQuery dan PostgreSQL. Pelajari penanganan streaming data dengan PySpark, Pub/Sub, dan Apache Beam, serta deploy ke produksi dengan Kubernetes dan Terraform. Kuasai praktik terbaik CI/CD, monitoring, dan arsitektur data modern.

Apa yang akan Anda pelajari

Lingkungan pengembangan: Linux, Git, GitHub, VS Code, Python lanjutan

CI/CD dan kualitas kode: Ruff, Pylint, Poetry, GitHub Actions

Containerisasi dengan Docker dan Docker Compose

API dengan FastAPI: desain, deployment, dokumentasi

Data Lake: ingestion, penyimpanan, organisasi data mentah

Data Warehouse dengan BigQuery: skema, partisi, optimisasi

PostgreSQL: konfigurasi, administrasi, perbandingan dengan solusi terkelola

Ingestion data dengan Fivetran dan Airbyte

Transformasi dengan dbt: models, tests, dokumentasi, modularitas

Orkestrasi dengan Apache Airflow: DAGs, scheduling, monitoring

Big Data dengan PySpark: transformasi skala besar

Streaming data: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: deployment container, scaling, cluster produksi

Infrastructure as Code dengan Terraform

Database lanjutan: GraphDB, Document DBs, Wide Column DBs

Logging, monitoring, dan observabilitas pipeline

Topik utama yang harus dikuasai

Konsep terpenting untuk memahami teknologi ini dan berhasil di wawancara

Linux dan Shell: perintah esensial, bash scripting, izin, cron jobs

Git dan GitHub: branching, merge, rebase, pull requests, CI/CD workflows

Python lanjutan: OOP, decorator, generator, context manager, typing, async/await

CI/CD: linting (Ruff, Pylint), packaging (Poetry), tests, GitHub Actions, pipelines

Docker: Dockerfile, images, containers, volumes, networks, multi-stage builds

Docker Compose: layanan multi-container, dependensi, healthchecks, orkestrasi lokal

FastAPI: routes, model Pydantic, dependensi, middleware, deployment

SQL lanjutan: window functions, CTEs, query analitik, optimisasi, indexing

BigQuery: arsitektur serverless, partisi, clustering, biaya, UDFs, federated queries

PostgreSQL: konfigurasi, replikasi, indexing (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

Pemodelan Data: skema bintang, tabel fakta/dimensi, normalisasi, SCD, data vault

ELT vs ETL vs ETLT: pola, trade-off, keputusan arsitektur

Fivetran dan Airbyte: konektor, mode sinkronisasi, CDC, evolusi skema

dbt: models, sources, refs, tests, snapshots, incremental models, Jinja macros

Apache Airflow: DAGs, operators, sensors, XCom, connections, pools, dependensi task

PySpark: RDD vs DataFrame, transformasi, actions, partitioning, broadcast variables

Streaming: Pub/Sub (topics, subscriptions), Apache Beam (PCollections, transforms, windowing), Dataflow

Kubernetes: pods, deployments, services, ingress, ConfigMaps, Secrets, Helm, scaling

Terraform: providers, resources, state, modules, plan/apply, infrastructure as code

IAM dan keamanan: prinsip hak istimewa minimum, service accounts, peran GCP

Database NoSQL: GraphDB (Neo4j), Document DBs (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

Arsitektur data: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contracts

Monitoring dan observabilitas: logging, metrik, alerting, SLA/SLO/SLI, pemeriksaan kualitas data

Artikel Data Engineering terbaru

Temukan artikel dan panduan terbaru kami tentang Data Engineering

Apache Spark 4 new features and structured streaming

May 11, 2026

Apache Spark 4: Fitur Baru, Structured Streaming, dan Pertanyaan Interview

Panduan lengkap Apache Spark 4 mencakup ANSI SQL mode, VARIANT data type, Real-Time Mode streaming, Spark Connect, dan pertanyaan interview data engineering terkini.

Diagram arsitektur streaming Apache Kafka dengan partisi dan aliran data

April 20, 2026

Apache Kafka untuk Data Engineer: Panduan Lengkap Partisi, Consumer Group, dan Pipeline Streaming

Panduan komprehensif Apache Kafka untuk data engineering: arsitektur partisi, consumer group, mode KRaft tanpa ZooKeeper, CDC dengan Debezium, exactly-once semantics, dan Share Groups di Kafka 4.x. Dilengkapi contoh kode Python dan konfigurasi Docker Compose.

ETL vs ELT data pipeline architecture comparison diagram

April 13, 2026

ETL vs ELT di 2026: Panduan Lengkap Arsitektur Data Pipeline

Pelajari perbedaan mendasar antara ETL dan ELT dalam data engineering modern. Panduan komprehensif arsitektur data pipeline dengan contoh kode Python dan dbt untuk membangun sistem yang scalable.

Lihat semua artikel Data Engineering