
Патерни ETL / ELT / ETLT
ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, ідемпотентність, обробка помилок, dead letter queue, якість даних, lineage
1Яка основна різниця між ETL та ELT?
Яка основна різниця між ETL та ELT?
Відповідь
У ETL (Extract-Transform-Load) дані трансформуються на проміжному сервері перед завантаженням у пункт призначення. У ELT (Extract-Load-Transform) сирі дані спочатку завантажуються в пункт призначення (зазвичай хмарне data warehouse), а потім трансформуються безпосередньо в ньому з використанням його обчислювальної потужності. ELT став популярним з хмарними data warehouse, такими як BigQuery, Snowflake або Redshift, які пропонують еластичну обчислювальну потужність.
2Яка основна перевага підходу ELT порівняно з традиційним ETL?
Яка основна перевага підходу ELT порівняно з традиційним ETL?
Відповідь
Підхід ELT використовує еластичну обчислювальну потужність сучасних хмарних data warehouse (BigQuery, Snowflake, Redshift). Замість підтримки окремої інфраструктури трансформації, яка може стати вузьким місцем, трансформації безпосередньо використовують можливості масштабування data warehouse. Це зменшує операційну складність і дозволяє обробляти значно більші обсяги даних без ручного провіженінгу ресурсів.
3Що таке патерн ETLT і коли він є актуальним?
Що таке патерн ETLT і коли він є актуальним?
Відповідь
ETLT поєднує обидва підходи: спочатку виконується легка трансформація під час екстракції (очищення, фільтрація, анонімізація), потім дані завантажуються, і складніші трансформації застосовуються в data warehouse. Цей патерн корисний, коли певні трансформації мають бути зроблені на ранніх етапах з причин відповідності (маскування чутливих даних перед завантаженням), зменшення обсягу (раннє фільтрування) або нормалізації гетерогенних форматів джерел.
Що таке ідемпотентність у контексті data pipeline?
Як реалізувати ідемпотентність при завантаженні даних у таблицю?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
Fivetran & Airbyte - Завантаження даних
dbt - Основи
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Apache Airflow - Просунутий
Airflow + dbt - Оркестрація пайплайнів
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно