
Data Lake - Архітектура та завантаження даних
Архітектура Data Lake, зони (raw/refined/curated), формати (Parquet, Avro, JSON), завантаження даних, партиціювання
1Що таке Data Lake?
Що таке Data Lake?
Відповідь
Data Lake — це централізована система зберігання, здатна зберігати сирі дані в їхньому рідному форматі, незалежно від того, чи вони структуровані, напівструктуровані або неструктуровані. На відміну від Data Warehouse, який нав'язує схему під час запису (schema-on-write), Data Lake застосовує схему під час читання (schema-on-read), пропонуючи максимальну гнучкість для дослідження та аналізу даних.
2Яка основна різниця між schema-on-write і schema-on-read?
Яка основна різниця між schema-on-write і schema-on-read?
Відповідь
Schema-on-write нав'язує валідацію та трансформацію даних перед зберіганням, забезпечуючи узгоджену структуру, але обмежуючи гнучкість. Schema-on-read зберігає дані у сирому форматі та застосовує схему лише під час читання, пропонуючи максимальну гнучкість завантаження, але потребуючи обробки при доступі до даних.
3Які три класичні зони Data Lake?
Які три класичні зони Data Lake?
Відповідь
Стандартна архітектура Data Lake складається з трьох зон: Raw (Bronze) для неперетворених сирих даних, Refined (Silver) для очищених і нормалізованих даних, та Curated (Gold) для агрегованих даних, готових до споживання. Така багаторівнева організація полегшує управління, простежуваність та якість даних.
Яка роль зони Raw (Bronze) у Data Lake?
Який формат файлу найкраще підходить для зберігання великих аналітичних даних у Data Lake?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
Fivetran & Airbyte - Завантаження даних
dbt - Основи
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Apache Airflow - Просунутий
Airflow + dbt - Оркестрація пайплайнів
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно