
Сучасна Data Architecture
Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, керування даними, data catalog, lineage
1Яка фундаментальна різниця між Data Lake та Data Warehouse?
Яка фундаментальна різниця між Data Lake та Data Warehouse?
Відповідь
Data Lake зберігає дані в їхньому нативному (необробленому) форматі зі схемою, що застосовується під час читання (schema-on-read), забезпечуючи велику гнучкість для дослідження. Data Warehouse застосовує структуровану схему під час запису (schema-on-write) із трансформованими та оптимізованими для аналітики даними. Data Lake надає перевагу гнучкості та масовому дешевому зберіганню, тоді як Data Warehouse надає перевагу продуктивності запитів та якості даних.
2Яка основна перевага архітектури Lakehouse порівняно з окремими архітектурами Data Lake і Data Warehouse?
Яка основна перевага архітектури Lakehouse порівняно з окремими архітектурами Data Lake і Data Warehouse?
Відповідь
Архітектура Lakehouse поєднує найкраще з обох світів: гнучке та економічне сховище Data Lake з ACID-можливостями, продуктивністю запитів та керуванням Data Warehouse. Це усуває дублювання даних між системами, зменшує витрати та складність синхронізації, водночас дозволяючи BI та ML-навантаження на одній платформі з використанням відкритих форматів, як-от Delta Lake, Iceberg або Hudi.
3Який відкритий формат таблиць забезпечує ACID-транзакції на Data Lake?
Який відкритий формат таблиць забезпечує ACID-транзакції на Data Lake?
Відповідь
Delta Lake, Apache Iceberg та Apache Hudi — три основні відкриті формати таблиць, що забезпечують ACID-транзакції на Data Lake. Delta Lake, розроблений Databricks, використовує transaction log для гарантування атомарності та узгодженості. Iceberg, створений Netflix, пропонує розширене керування партиціями та schema evolution. Hudi, розроблений Uber, відзначається в сценаріях upsert і CDC. Ці формати перетворюють просте об'єктне сховище на Lakehouse з транзакційними гарантіями.
Який фундаментальний принцип Data Mesh?
Що таке Data Contract у контексті Data Mesh?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
Fivetran & Airbyte - Завантаження даних
dbt - Основи
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Apache Airflow - Просунутий
Airflow + dbt - Оркестрація пайплайнів
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно