Question 1

Що таке Data Lake?

Accepted Answer

Data Lake — це централізована система зберігання, здатна зберігати сирі дані в їхньому рідному форматі, незалежно від того, чи вони структуровані, напівструктуровані або неструктуровані. На відміну від Data Warehouse, який нав'язує схему під час запису (schema-on-write), Data Lake застосовує схему під час читання (schema-on-read), пропонуючи максимальну гнучкість для дослідження та аналізу даних.

Question 2

Яка основна різниця між schema-on-write і schema-on-read?

Accepted Answer

Schema-on-write нав'язує валідацію та трансформацію даних перед зберіганням, забезпечуючи узгоджену структуру, але обмежуючи гнучкість. Schema-on-read зберігає дані у сирому форматі та застосовує схему лише під час читання, пропонуючи максимальну гнучкість завантаження, але потребуючи обробки при доступі до даних.

Question 3

Які три класичні зони Data Lake?

Accepted Answer

Стандартна архітектура Data Lake складається з трьох зон: Raw (Bronze) для неперетворених сирих даних, Refined (Silver) для очищених і нормалізованих даних, та Curated (Gold) для агрегованих даних, готових до споживання. Така багаторівнева організація полегшує управління, простежуваність та якість даних.

Data Lake - Архітектура та завантаження даних

Що таке Data Lake?

Відповідь

Яка основна різниця між schema-on-write і schema-on-read?

Відповідь

Які три класичні зони Data Lake?

Відповідь

Яка роль зони Raw (Bronze) у Data Lake?

Який формат файлу найкраще підходить для зберігання великих аналітичних даних у Data Lake?

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Git & GitHub - Основи

Просунутий Python для Data Engineering

Docker - Основи

Google Cloud Platform - Основи

CI/CD та якість коду

Docker Compose

FastAPI - API даних

Просунутий SQL для Data Engineering

BigQuery для Data Engineering

PostgreSQL - Адміністрування

Data Modeling для Data Engineering

Fivetran & Airbyte - Завантаження даних

dbt - Основи

Apache Airflow - Основи

Kubernetes - Основи

dbt - Розширені можливості

Патерни ETL / ELT / ETLT

Apache Airflow - Просунутий

Airflow + dbt - Оркестрація пайплайнів

PySpark - Великомасштабна обробка

Google Pub/Sub - Стрімінг даних

Apache Beam & Dataflow

Kubernetes - Продакшн та масштабування

Terraform - Infrastructure as Code

Бази даних NoSQL

Сучасна Data Architecture

Моніторинг та спостережуваність

IAM та безпека даних

Опануй Data Engineering для наступної співбесіди