Data Engineering

Data Engineering

DATA

āļŦāļĨāļąāļāļŠāļđāļ•āļĢ Data Engineering āļ—āļĩāđˆāļ„āļĢāļ­āļšāļ„āļĨāļļāļĄāļŦāđˆāļ§āļ‡āđ‚āļ‹āđˆāļāļēāļĢāļœāļĨāļīāļ•āļ‚āđ‰āļ­āļĄāļđāļĨāļ—āļąāđ‰āļ‡āļŦāļĄāļ” āļ•āļąāđ‰āļ‡āđāļ•āđˆāļāļēāļĢāļ•āļąāđ‰āļ‡āļ„āđˆāļēāļŠāļ āļēāļžāđāļ§āļ”āļĨāđ‰āļ­āļĄāļ”āđ‰āļ§āļĒ Docker āđāļĨāļ° GCP āđ„āļ›āļˆāļ™āļ–āļķāļ‡āļāļēāļĢāļˆāļąāļ”āļāļēāļĢ pipeline āļ”āđ‰āļ§āļĒ Airflow āđāļĨāļ° dbt āļœāđˆāļēāļ™āļāļēāļĢāļŠāļĢāđ‰āļēāļ‡ Data Warehouse āļ”āđ‰āļ§āļĒ BigQuery āđāļĨāļ° PostgreSQL āđ€āļĢāļĩāļĒāļ™āļĢāļđāđ‰āļāļēāļĢāļˆāļąāļ”āļāļēāļĢ data streaming āļ”āđ‰āļ§āļĒ PySpark, Pub/Sub āđāļĨāļ° Apache Beam āđāļĨāļ°āļāļēāļĢ deploy āđ„āļ›āļĒāļąāļ‡ production āļ”āđ‰āļ§āļĒ Kubernetes āđāļĨāļ° Terraform āđ€āļŠāļĩāđˆāļĒāļ§āļŠāļēāļ CI/CD, āļāļēāļĢāļ•āļīāļ”āļ•āļēāļĄ āđāļĨāļ°āļŠāļ–āļēāļ›āļąāļ•āļĒāļāļĢāļĢāļĄāļ‚āđ‰āļ­āļĄāļđāļĨāļŠāļĄāļąāļĒāđƒāļŦāļĄāđˆ

āļŠāļīāđˆāļ‡āļ—āļĩāđˆāļ„āļļāļ“āļˆāļ°āđ„āļ”āđ‰āđ€āļĢāļĩāļĒāļ™āļĢāļđāđ‰

āļŠāļ āļēāļžāđāļ§āļ”āļĨāđ‰āļ­āļĄāļāļēāļĢāļžāļąāļ’āļ™āļē: Linux, Git, GitHub, VS Code, Python āļ‚āļąāđ‰āļ™āļŠāļđāļ‡

CI/CD āđāļĨāļ°āļ„āļļāļ“āļ āļēāļžāđ‚āļ„āđ‰āļ”: Ruff, Pylint, Poetry, GitHub Actions

āļāļēāļĢāļ—āļģ container āļ”āđ‰āļ§āļĒ Docker āđāļĨāļ° Docker Compose

API āļ”āđ‰āļ§āļĒ FastAPI: āļāļēāļĢāļ­āļ­āļāđāļšāļš, āļāļēāļĢ deploy, āđ€āļ­āļāļŠāļēāļĢ

Data Lake: āļāļēāļĢāļ™āļģāđ€āļ‚āđ‰āļē, āļāļēāļĢāļˆāļąāļ”āđ€āļāđ‡āļš, āļāļēāļĢāļˆāļąāļ”āļĢāļ°āđ€āļšāļĩāļĒāļšāļ‚āđ‰āļ­āļĄāļđāļĨāļ”āļīāļš

Data Warehouse āļ”āđ‰āļ§āļĒ BigQuery: schema, āļāļēāļĢāđāļšāđˆāļ‡āļžāļēāļĢāđŒāļ—āļīāļŠāļąāļ™, āļāļēāļĢāđ€āļžāļīāđˆāļĄāļ›āļĢāļ°āļŠāļīāļ—āļ˜āļīāļ āļēāļž

PostgreSQL: āļāļēāļĢāļ•āļīāļ”āļ•āļąāđ‰āļ‡, āļāļēāļĢāļˆāļąāļ”āļāļēāļĢ, āļāļēāļĢāđ€āļ›āļĢāļĩāļĒāļšāđ€āļ—āļĩāļĒāļšāļāļąāļšāđ‚āļ‹āļĨāļđāļŠāļąāļ™ managed

āļāļēāļĢāļ™āļģāđ€āļ‚āđ‰āļēāļ‚āđ‰āļ­āļĄāļđāļĨāļ”āđ‰āļ§āļĒ Fivetran āđāļĨāļ° Airbyte

āļāļēāļĢāđāļ›āļĨāļ‡āļ”āđ‰āļ§āļĒ dbt: model, test, āđ€āļ­āļāļŠāļēāļĢ, āļ„āļ§āļēāļĄāđ€āļ›āđ‡āļ™āđ‚āļĄāļ”āļđāļĨ

āļāļēāļĢāļˆāļąāļ”āļāļēāļĢāļ”āđ‰āļ§āļĒ Apache Airflow: DAG, āļāļēāļĢāļ•āļąāđ‰āļ‡āđ€āļ§āļĨāļē, āļāļēāļĢāļ•āļīāļ”āļ•āļēāļĄ

Big Data āļ”āđ‰āļ§āļĒ PySpark: āļāļēāļĢāđāļ›āļĨāļ‡āļ‚āļ™āļēāļ”āđƒāļŦāļāđˆ

Data streaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: āļāļēāļĢ deploy container, āļāļēāļĢāļ›āļĢāļąāļšāļ‚āļ™āļēāļ”, āļ„āļĨāļąāļŠāđ€āļ•āļ­āļĢāđŒ production

Infrastructure as Code āļ”āđ‰āļ§āļĒ Terraform

āļāļēāļ™āļ‚āđ‰āļ­āļĄāļđāļĨāļ‚āļąāđ‰āļ™āļŠāļđāļ‡: GraphDB, Document DB, Wide Column DB

āļāļēāļĢāļšāļąāļ™āļ—āļķāļ log, āļāļēāļĢāļ•āļīāļ”āļ•āļēāļĄ āđāļĨāļ°āļ„āļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļ–āđƒāļ™āļāļēāļĢāļŠāļąāļ‡āđ€āļāļ• pipeline

āļŦāļąāļ§āļ‚āđ‰āļ­āļŠāļģāļ„āļąāļāļ—āļĩāđˆāļ•āđ‰āļ­āļ‡āđ€āļŠāļĩāđˆāļĒāļ§āļŠāļēāļ

āđāļ™āļ§āļ„āļīāļ”āļ—āļĩāđˆāļŠāļģāļ„āļąāļāļ—āļĩāđˆāļŠāļļāļ”āđ€āļžāļ·āđˆāļ­āđ€āļ‚āđ‰āļēāđƒāļˆāđ€āļ—āļ„āđ‚āļ™āđ‚āļĨāļĒāļĩāļ™āļĩāđ‰āđāļĨāļ°āļ›āļĢāļ°āļŠāļšāļ„āļ§āļēāļĄāļŠāļģāđ€āļĢāđ‡āļˆāđƒāļ™āļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ

1

Linux āđāļĨāļ° Shell: āļ„āļģāļŠāļąāđˆāļ‡āļžāļ·āđ‰āļ™āļāļēāļ™, bash scripting, āļŠāļīāļ—āļ˜āļīāđŒ, cron job

2

Git āđāļĨāļ° GitHub: āļāļēāļĢāđāļ•āļāļŠāļēāļ‚āļē, merge, rebase, pull request, workflow CI/CD

3

Python āļ‚āļąāđ‰āļ™āļŠāļđāļ‡: OOP, decorator, generator, context manager, typing, async/await

4

CI/CD: linting (Ruff, Pylint), āļāļēāļĢāļˆāļąāļ”āđāļžāđ‡āļāđ€āļāļˆ (Poetry), test, GitHub Actions, pipeline

5

Docker: Dockerfile, image, container, volume, network, multi-stage build

6

Docker Compose: āļšāļĢāļīāļāļēāļĢāļŦāļĨāļēāļĒ container, āļāļēāļĢāļžāļķāđˆāļ‡āļžāļē, healthcheck, āļāļēāļĢāļˆāļąāļ”āļāļēāļĢāđƒāļ™āđ€āļ„āļĢāļ·āđˆāļ­āļ‡

7

FastAPI: route, āđ‚āļĄāđ€āļ”āļĨ Pydantic, dependency, middleware, āļāļēāļĢ deploy

8

SQL āļ‚āļąāđ‰āļ™āļŠāļđāļ‡: window function, CTE, āļ„āļīāļ§āļĢāļĩāļ§āļīāđ€āļ„āļĢāļēāļ°āļŦāđŒ, āļāļēāļĢāđ€āļžāļīāđˆāļĄāļ›āļĢāļ°āļŠāļīāļ—āļ˜āļīāļ āļēāļž, index

9

BigQuery: āļŠāļ–āļēāļ›āļąāļ•āļĒāļāļĢāļĢāļĄ serverless, āļāļēāļĢāđāļšāđˆāļ‡āļžāļēāļĢāđŒāļ—āļīāļŠāļąāļ™, āļ„āļĨāļąāļŠāđ€āļ•āļ­āļĢāđŒ, āļ•āđ‰āļ™āļ—āļļāļ™, UDF, āļ„āļīāļ§āļĢāļĩāđāļšāļš federated

10

PostgreSQL: āļāļēāļĢāļ•āļąāđ‰āļ‡āļ„āđˆāļē, āļāļēāļĢāļˆāļģāļĨāļ­āļ‡, index (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

11

āļāļēāļĢāļŠāļĢāđ‰āļēāļ‡āđ‚āļĄāđ€āļ”āļĨāļ‚āđ‰āļ­āļĄāļđāļĨ: star schema, āļ•āļēāļĢāļēāļ‡ fact/dimension, normalization, SCD, data vault

12

ELT vs ETL vs ETLT: āļĢāļđāļ›āđāļšāļš, āļāļēāļĢāđāļĨāļāđ€āļ›āļĨāļĩāđˆāļĒāļ™, āļ—āļēāļ‡āđ€āļĨāļ·āļ­āļāļŠāļ–āļēāļ›āļąāļ•āļĒāļāļĢāļĢāļĄ

13

Fivetran āđāļĨāļ° Airbyte: connector, āđ‚āļŦāļĄāļ”āļāļēāļĢāļ‹āļīāļ‡āļ„āđŒ, CDC, āļāļēāļĢāļžāļąāļ’āļ™āļē schema

14

dbt: model, source, ref, test, snapshot, model āđ€āļžāļīāđˆāļĄāļ—āļĩāļĨāļ°āļŠāđˆāļ§āļ™, Jinja macro

15

Apache Airflow: DAG, operator, sensor, XCom, connection, pool, āļāļēāļĢāļžāļķāđˆāļ‡āļžāļēāļ‡āļēāļ™

16

PySpark: RDD vs DataFrame, āļāļēāļĢāđāļ›āļĨāļ‡, action, āļāļēāļĢāđāļšāđˆāļ‡āļžāļēāļĢāđŒāļ—āļīāļŠāļąāļ™, āļ•āļąāļ§āđāļ›āļĢ broadcast

17

Streaming: Pub/Sub (topic, subscription), Apache Beam (PCollection, transform, windowing), Dataflow

18

Kubernetes: pod, deployment, service, ingress, ConfigMap, Secret, Helm, āļāļēāļĢāļ›āļĢāļąāļšāļ‚āļ™āļēāļ”

19

Terraform: provider, resource, state, module, plan/apply, infrastructure as code

20

IAM āđāļĨāļ°āļ„āļ§āļēāļĄāļ›āļĨāļ­āļ”āļ āļąāļĒ: āļŦāļĨāļąāļāļŠāļīāļ—āļ˜āļīāđŒāļ™āđ‰āļ­āļĒāļ—āļĩāđˆāļŠāļļāļ”, service account, āļšāļ—āļšāļēāļ— GCP

21

āļāļēāļ™āļ‚āđ‰āļ­āļĄāļđāļĨ NoSQL: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

22

āļŠāļ–āļēāļ›āļąāļ•āļĒāļāļĢāļĢāļĄāļ‚āđ‰āļ­āļĄāļđāļĨ: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contract

23

āļāļēāļĢāļ•āļīāļ”āļ•āļēāļĄāđāļĨāļ°āļ„āļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļ–āđƒāļ™āļāļēāļĢāļŠāļąāļ‡āđ€āļāļ•: logging, āđ€āļĄāļ•āļĢāļīāļ, āļāļēāļĢāđāļˆāđ‰āļ‡āđ€āļ•āļ·āļ­āļ™, SLA/SLO/SLI, āļāļēāļĢāļ•āļĢāļ§āļˆāļŠāļ­āļšāļ„āļļāļ“āļ āļēāļžāļ‚āđ‰āļ­āļĄāļđāļĨ

āļšāļ—āļ„āļ§āļēāļĄ Data Engineering āļĨāđˆāļēāļŠāļļāļ”

āļ„āđ‰āļ™āļžāļšāļšāļ—āļ„āļ§āļēāļĄāđāļĨāļ°āļ„āļđāđˆāļĄāļ·āļ­āļĨāđˆāļēāļŠāļļāļ”āđ€āļāļĩāđˆāļĒāļ§āļāļąāļš Data Engineering

Apache Airflow pipeline orchestration DAGs tutorial 2026

Apache Airflow āđƒāļ™āļ›āļĩ 2026: āļāļēāļĢāļˆāļąāļ”āļāļēāļĢ Pipeline, DAG āđāļĨāļ°āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ‡āļēāļ™ Data Engineering

āļ„āļđāđˆāļĄāļ·āļ­ Apache Airflow 3.2 āļ‰āļšāļąāļšāļŠāļĄāļšāļđāļĢāļ“āđŒ: āļāļēāļĢāđ€āļ‚āļĩāļĒāļ™ DAG āļ”āđ‰āļ§āļĒ Task SDK, āļĢāļđāļ›āđāļšāļšāļāļēāļĢāļˆāļąāļ”āļāļēāļĢ data pipeline, asset partition, dynamic task mapping, native async āđāļĨāļ°āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ‡āļēāļ™āļŠāļģāļŦāļĢāļąāļšāļ§āļīāļĻāļ§āļāļĢāļ‚āđ‰āļ­āļĄāļđāļĨāđƒāļ™āļ›āļĩ 2026

dbt data transformations testing interview 2026

dbt āđƒāļ™āļ›āļĩ 2026: āļāļēāļĢāđāļ›āļĨāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨ āļāļēāļĢāļ—āļ”āļŠāļ­āļš āđāļĨāļ°āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ‡āļēāļ™

āļ„āļđāđˆāļĄāļ·āļ­ dbt āļŠāļģāļŦāļĢāļąāļšāļ§āļīāļĻāļ§āļāļĢāļ‚āđ‰āļ­āļĄāļđāļĨ: āļāļēāļĢāđāļ›āļĨāļ‡ SQL, āļāļēāļĢāļŠāļĢāđ‰āļēāļ‡āđ‚āļĄāđ€āļ”āļĨāđāļšāļšāđāļšāđˆāļ‡āļŠāļąāđ‰āļ™, āļāļĨāļĒāļļāļ—āļ˜āđŒ incremental, āļāļēāļĢāļ—āļ”āļŠāļ­āļšāļ„āļļāļ“āļ āļēāļžāļ‚āđ‰āļ­āļĄāļđāļĨ āđāļĨāļ°āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļžāļĢāđ‰āļ­āļĄāļ•āļąāļ§āļ­āļĒāđˆāļēāļ‡āđ‚āļ„āđ‰āļ”āļŠāļģāļŦāļĢāļąāļšāļ›āļĩ 2026

Apache Spark 4 new features and structured streaming

Apache Spark 4: āļŸāļĩāđ€āļˆāļ­āļĢāđŒāđƒāļŦāļĄāđˆ Structured Streaming āđāļĨāļ°āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ‡āļēāļ™

āļŠāļģāļĢāļ§āļˆāļŸāļĩāđ€āļˆāļ­āļĢāđŒāļŠāļģāļ„āļąāļāđƒāļ™ Apache Spark 4 āļĢāļ§āļĄāļ–āļķāļ‡ ANSI SQL Mode, VARIANT data type, Real-Time Mode streaming āđāļĨāļ° transformWithState API āļžāļĢāđ‰āļ­āļĄāļ•āļąāļ§āļ­āļĒāđˆāļēāļ‡āđ‚āļ„āđ‰āļ”āđāļĨāļ°āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ‡āļēāļ™āļ—āļĩāđˆāļžāļšāļšāđˆāļ­āļĒ

āļ”āļđāļšāļ—āļ„āļ§āļēāļĄ Data Engineering āļ—āļąāđ‰āļ‡āļŦāļĄāļ”