Data Engineering

DATA

Комплексна програма Data Engineering, що охоплює весь ланцюжок виробництва даних. Від налаштування середовища з Docker та GCP до оркестрації pipeline з Airflow та dbt, через створення Data Warehouse з BigQuery та PostgreSQL. Навчись обробляти data streaming з PySpark, Pub/Sub та Apache Beam, та розгортати у продакшн з Kubernetes та Terraform. Опануй кращі практики CI/CD, моніторингу та сучасних архітектур даних.

Чому ти навчишся

Середовища розробки: Linux, Git, GitHub, VS Code, розширений Python

CI/CD та якість коду: Ruff, Pylint, Poetry, GitHub Actions

Контейнеризація з Docker та Docker Compose

API з FastAPI: проєктування, розгортання, документація

Data Lake: збір, зберігання, організація сирих даних

Data Warehouse з BigQuery: схеми, розділення, оптимізація

PostgreSQL: встановлення, адміністрування, порівняння з managed-рішеннями

Збір даних з Fivetran та Airbyte

Трансформація з dbt: моделі, тести, документація, модульність

Оркестрація з Apache Airflow: DAG, планування, моніторинг

Big Data з PySpark: масштабні трансформації

Data streaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: розгортання контейнерів, масштабування, продакшн-кластери

Infrastructure as Code з Terraform

Розширені бази даних: GraphDB, Document DB, Wide Column DB

Логування, моніторинг та спостережуваність pipeline

Ключові теми для опанування

Найважливіші концепції для розуміння цієї технології та проходження співбесід

Linux та Shell: основні команди, bash-скрипти, дозволи, cron-завдання

Git та GitHub: гілки, merge, rebase, pull request, CI/CD-процеси

Розширений Python: ООП, декоратори, генератори, контекстні менеджери, typing, async/await

CI/CD: linting (Ruff, Pylint), пакування (Poetry), тести, GitHub Actions, pipeline

Docker: Dockerfile, образи, контейнери, томи, мережі, multi-stage build

Docker Compose: багатоконтейнерні сервіси, залежності, healthcheck, локальна оркестрація

FastAPI: маршрути, моделі Pydantic, залежності, middleware, розгортання

Розширений SQL: window function, CTE, аналітичні запити, оптимізація, індексування

BigQuery: serverless-архітектура, розділення, кластеризація, витрати, UDF, федеративні запити

PostgreSQL: конфігурація, реплікація, індексування (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

Моделювання даних: схема зірки, таблиці фактів/вимірів, нормалізація, SCD, data vault

ELT vs ETL vs ETLT: патерни, компроміси, архітектурні рішення

Fivetran та Airbyte: конектори, режими синхронізації, CDC, еволюція схеми

dbt: моделі, джерела, ref, тести, snapshot, інкрементальні моделі, Jinja-макроси

Apache Airflow: DAG, оператори, сенсори, XCom, з'єднання, пули, залежності завдань

PySpark: RDD vs DataFrame, трансформації, дії, розділення, broadcast-змінні

Streaming: Pub/Sub (теми, підписки), Apache Beam (PCollection, трансформації, windowing), Dataflow

Kubernetes: pod, deployment, service, ingress, ConfigMap, Secret, Helm, масштабування

Terraform: провайдери, ресурси, стан, модулі, plan/apply, infrastructure as code

IAM та безпека: принцип мінімальних привілеїв, сервісні акаунти, ролі GCP

NoSQL бази даних: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

Архітектура даних: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contract

Моніторинг та спостережуваність: логування, метрики, сповіщення, SLA/SLO/SLI, перевірки якості даних

Нещодавні статті про Data Engineering

Відкрий наші найновіші статті та посібники про Data Engineering

Apache Spark 4 нові можливості та Structured Streaming

May 11, 2026

Apache Spark 4 у 2026 році: нові можливості, Structured Streaming та питання для співбесіди

Технічний огляд Apache Spark 4 з ANSI SQL, типом даних VARIANT, Real-Time Mode Streaming, Spark Connect та найважливішими питаннями для співбесіди на позиції Data Engineering.

Архітектура потокової обробки Apache Kafka з партиціями та діаграмою руху даних

April 20, 2026

Apache Kafka для Data Engineers: Партиції, Consumer Groups та Потокова Обробка Даних

Повний посібник з Apache Kafka для інженерів даних: архітектура потокової обробки, стратегії партиціонування, consumer groups, CDC з Debezium, exactly-once семантика, Share Groups у Kafka 4.x та питання для технічних співбесід.

Діаграма порівняння архітектури ETL та ELT пайплайнів даних

April 13, 2026

ETL проти ELT у 2026: Архітектура пайплайнів даних

Порівняння ETL та ELT для сучасних пайплайнів даних. Архітектурні відмінності, компроміси продуктивності та застосування зі Snowflake, BigQuery і dbt.

Переглянути всі статті про Data Engineering