Question 1

Яка фундаментальна різниця між Data Lake та Data Warehouse?

Accepted Answer

Data Lake зберігає дані в їхньому нативному (необробленому) форматі зі схемою, що застосовується під час читання (schema-on-read), забезпечуючи велику гнучкість для дослідження. Data Warehouse застосовує структуровану схему під час запису (schema-on-write) із трансформованими та оптимізованими для аналітики даними. Data Lake надає перевагу гнучкості та масовому дешевому зберіганню, тоді як Data Warehouse надає перевагу продуктивності запитів та якості даних.

Question 2

Яка основна перевага архітектури Lakehouse порівняно з окремими архітектурами Data Lake і Data Warehouse?

Accepted Answer

Архітектура Lakehouse поєднує найкраще з обох світів: гнучке та економічне сховище Data Lake з ACID-можливостями, продуктивністю запитів та керуванням Data Warehouse. Це усуває дублювання даних між системами, зменшує витрати та складність синхронізації, водночас дозволяючи BI та ML-навантаження на одній платформі з використанням відкритих форматів, як-от Delta Lake, Iceberg або Hudi.

Question 3

Який відкритий формат таблиць забезпечує ACID-транзакції на Data Lake?

Accepted Answer

Delta Lake, Apache Iceberg та Apache Hudi — три основні відкриті формати таблиць, що забезпечують ACID-транзакції на Data Lake. Delta Lake, розроблений Databricks, використовує transaction log для гарантування атомарності та узгодженості. Iceberg, створений Netflix, пропонує розширене керування партиціями та schema evolution. Hudi, розроблений Uber, відзначається в сценаріях upsert і CDC. Ці формати перетворюють просте об'єктне сховище на Lakehouse з транзакційними гарантіями.

Сучасна Data Architecture

Яка фундаментальна різниця між Data Lake та Data Warehouse?

Відповідь

Яка основна перевага архітектури Lakehouse порівняно з окремими архітектурами Data Lake і Data Warehouse?

Відповідь

Який відкритий формат таблиць забезпечує ACID-транзакції на Data Lake?

Відповідь

Який фундаментальний принцип Data Mesh?

Що таке Data Contract у контексті Data Mesh?

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Git & GitHub - Основи

Просунутий Python для Data Engineering

Docker - Основи

Google Cloud Platform - Основи

CI/CD та якість коду

Docker Compose

FastAPI - API даних

Просунутий SQL для Data Engineering

Data Lake - Архітектура та завантаження даних

BigQuery для Data Engineering

PostgreSQL - Адміністрування

Data Modeling для Data Engineering

Fivetran & Airbyte - Завантаження даних

dbt - Основи

Apache Airflow - Основи

Kubernetes - Основи

dbt - Розширені можливості

Патерни ETL / ELT / ETLT

Apache Airflow - Просунутий

Airflow + dbt - Оркестрація пайплайнів

PySpark - Великомасштабна обробка

Google Pub/Sub - Стрімінг даних

Apache Beam & Dataflow

Kubernetes - Продакшн та масштабування

Terraform - Infrastructure as Code

Бази даних NoSQL

Моніторинг та спостережуваність

IAM та безпека даних

Опануй Data Engineering для наступної співбесіди