Data Engineering

Data Engineering

DATA

Kurikulum Data Engineering komprehensif yang mencakup seluruh rantai produksi data. Dari pengaturan lingkungan dengan Docker dan GCP hingga orkestrasi pipeline dengan Airflow dan dbt, melalui pembuatan Data Warehouse dengan BigQuery dan PostgreSQL. Pelajari penanganan streaming data dengan PySpark, Pub/Sub, dan Apache Beam, serta deploy ke produksi dengan Kubernetes dan Terraform. Kuasai praktik terbaik CI/CD, monitoring, dan arsitektur data modern.

Apa yang akan Anda pelajari

Lingkungan pengembangan: Linux, Git, GitHub, VS Code, Python lanjutan

CI/CD dan kualitas kode: Ruff, Pylint, Poetry, GitHub Actions

Containerisasi dengan Docker dan Docker Compose

API dengan FastAPI: desain, deployment, dokumentasi

Data Lake: ingestion, penyimpanan, organisasi data mentah

Data Warehouse dengan BigQuery: skema, partisi, optimisasi

PostgreSQL: konfigurasi, administrasi, perbandingan dengan solusi terkelola

Ingestion data dengan Fivetran dan Airbyte

Transformasi dengan dbt: models, tests, dokumentasi, modularitas

Orkestrasi dengan Apache Airflow: DAGs, scheduling, monitoring

Big Data dengan PySpark: transformasi skala besar

Streaming data: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: deployment container, scaling, cluster produksi

Infrastructure as Code dengan Terraform

Database lanjutan: GraphDB, Document DBs, Wide Column DBs

Logging, monitoring, dan observabilitas pipeline

Topik utama yang harus dikuasai

Konsep terpenting untuk memahami teknologi ini dan berhasil di wawancara

1

Linux dan Shell: perintah esensial, bash scripting, izin, cron jobs

2

Git dan GitHub: branching, merge, rebase, pull requests, CI/CD workflows

3

Python lanjutan: OOP, decorator, generator, context manager, typing, async/await

4

CI/CD: linting (Ruff, Pylint), packaging (Poetry), tests, GitHub Actions, pipelines

5

Docker: Dockerfile, images, containers, volumes, networks, multi-stage builds

6

Docker Compose: layanan multi-container, dependensi, healthchecks, orkestrasi lokal

7

FastAPI: routes, model Pydantic, dependensi, middleware, deployment

8

SQL lanjutan: window functions, CTEs, query analitik, optimisasi, indexing

9

BigQuery: arsitektur serverless, partisi, clustering, biaya, UDFs, federated queries

10

PostgreSQL: konfigurasi, replikasi, indexing (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

11

Pemodelan Data: skema bintang, tabel fakta/dimensi, normalisasi, SCD, data vault

12

ELT vs ETL vs ETLT: pola, trade-off, keputusan arsitektur

13

Fivetran dan Airbyte: konektor, mode sinkronisasi, CDC, evolusi skema

14

dbt: models, sources, refs, tests, snapshots, incremental models, Jinja macros

15

Apache Airflow: DAGs, operators, sensors, XCom, connections, pools, dependensi task

16

PySpark: RDD vs DataFrame, transformasi, actions, partitioning, broadcast variables

17

Streaming: Pub/Sub (topics, subscriptions), Apache Beam (PCollections, transforms, windowing), Dataflow

18

Kubernetes: pods, deployments, services, ingress, ConfigMaps, Secrets, Helm, scaling

19

Terraform: providers, resources, state, modules, plan/apply, infrastructure as code

20

IAM dan keamanan: prinsip hak istimewa minimum, service accounts, peran GCP

21

Database NoSQL: GraphDB (Neo4j), Document DBs (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

22

Arsitektur data: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contracts

23

Monitoring dan observabilitas: logging, metrik, alerting, SLA/SLO/SLI, pemeriksaan kualitas data