Data Engineering

Сучасна Data Architecture

Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, керування даними, data catalog, lineage

20 питань зі співбесід·
Senior
1

Яка фундаментальна різниця між Data Lake та Data Warehouse?

Відповідь

Data Lake зберігає дані в їхньому нативному (необробленому) форматі зі схемою, що застосовується під час читання (schema-on-read), забезпечуючи велику гнучкість для дослідження. Data Warehouse застосовує структуровану схему під час запису (schema-on-write) із трансформованими та оптимізованими для аналітики даними. Data Lake надає перевагу гнучкості та масовому дешевому зберіганню, тоді як Data Warehouse надає перевагу продуктивності запитів та якості даних.

2

Яка основна перевага архітектури Lakehouse порівняно з окремими архітектурами Data Lake і Data Warehouse?

Відповідь

Архітектура Lakehouse поєднує найкраще з обох світів: гнучке та економічне сховище Data Lake з ACID-можливостями, продуктивністю запитів та керуванням Data Warehouse. Це усуває дублювання даних між системами, зменшує витрати та складність синхронізації, водночас дозволяючи BI та ML-навантаження на одній платформі з використанням відкритих форматів, як-от Delta Lake, Iceberg або Hudi.

3

Який відкритий формат таблиць забезпечує ACID-транзакції на Data Lake?

Відповідь

Delta Lake, Apache Iceberg та Apache Hudi — три основні відкриті формати таблиць, що забезпечують ACID-транзакції на Data Lake. Delta Lake, розроблений Databricks, використовує transaction log для гарантування атомарності та узгодженості. Iceberg, створений Netflix, пропонує розширене керування партиціями та schema evolution. Hudi, розроблений Uber, відзначається в сценаріях upsert і CDC. Ці формати перетворюють просте об'єктне сховище на Lakehouse з транзакційними гарантіями.

4

Який фундаментальний принцип Data Mesh?

5

Що таке Data Contract у контексті Data Mesh?

+17 питань зі співбесід

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Junior
20 запитань

Git & GitHub - Основи

Junior
20 запитань

Просунутий Python для Data Engineering

Junior
25 запитань

Docker - Основи

Junior
25 запитань

Google Cloud Platform - Основи

Junior
20 запитань

CI/CD та якість коду

Mid-Level
20 запитань

Docker Compose

Mid-Level
20 запитань

FastAPI - API даних

Mid-Level
20 запитань

Просунутий SQL для Data Engineering

Mid-Level
20 запитань

Data Lake - Архітектура та завантаження даних

Mid-Level
20 запитань

BigQuery для Data Engineering

Mid-Level
20 запитань

PostgreSQL - Адміністрування

Mid-Level
20 запитань

Data Modeling для Data Engineering

Mid-Level
20 запитань

Fivetran & Airbyte - Завантаження даних

Mid-Level
20 запитань

dbt - Основи

Mid-Level
20 запитань

Apache Airflow - Основи

Mid-Level
20 запитань

Kubernetes - Основи

Mid-Level
20 запитань

dbt - Розширені можливості

Senior
20 запитань

Патерни ETL / ELT / ETLT

Senior
20 запитань

Apache Airflow - Просунутий

Senior
20 запитань

Airflow + dbt - Оркестрація пайплайнів

Senior
20 запитань

PySpark - Великомасштабна обробка

Senior
20 запитань

Google Pub/Sub - Стрімінг даних

Senior
20 запитань

Apache Beam & Dataflow

Senior
20 запитань

Kubernetes - Продакшн та масштабування

Senior
20 запитань

Terraform - Infrastructure as Code

Senior
20 запитань

Бази даних NoSQL

Senior
20 запитань

Моніторинг та спостережуваність

Senior
20 запитань

IAM та безпека даних

Senior
20 запитань

Опануй Data Engineering для наступної співбесіди

Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.

Почни безкоштовно