Question 1

Яка основна різниця між ETL та ELT?

Accepted Answer

У ETL (Extract-Transform-Load) дані трансформуються на проміжному сервері перед завантаженням у пункт призначення. У ELT (Extract-Load-Transform) сирі дані спочатку завантажуються в пункт призначення (зазвичай хмарне data warehouse), а потім трансформуються безпосередньо в ньому з використанням його обчислювальної потужності. ELT став популярним з хмарними data warehouse, такими як BigQuery, Snowflake або Redshift, які пропонують еластичну обчислювальну потужність.

Question 2

Яка основна перевага підходу ELT порівняно з традиційним ETL?

Accepted Answer

Підхід ELT використовує еластичну обчислювальну потужність сучасних хмарних data warehouse (BigQuery, Snowflake, Redshift). Замість підтримки окремої інфраструктури трансформації, яка може стати вузьким місцем, трансформації безпосередньо використовують можливості масштабування data warehouse. Це зменшує операційну складність і дозволяє обробляти значно більші обсяги даних без ручного провіженінгу ресурсів.

Question 3

Що таке патерн ETLT і коли він є актуальним?

Accepted Answer

ETLT поєднує обидва підходи: спочатку виконується легка трансформація під час екстракції (очищення, фільтрація, анонімізація), потім дані завантажуються, і складніші трансформації застосовуються в data warehouse. Цей патерн корисний, коли певні трансформації мають бути зроблені на ранніх етапах з причин відповідності (маскування чутливих даних перед завантаженням), зменшення обсягу (раннє фільтрування) або нормалізації гетерогенних форматів джерел.

Патерни ETL / ELT / ETLT

Яка основна різниця між ETL та ELT?

Відповідь

Яка основна перевага підходу ELT порівняно з традиційним ETL?

Відповідь

Що таке патерн ETLT і коли він є актуальним?

Відповідь

Що таке ідемпотентність у контексті data pipeline?

Як реалізувати ідемпотентність при завантаженні даних у таблицю?

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Git & GitHub - Основи

Просунутий Python для Data Engineering

Docker - Основи

Google Cloud Platform - Основи

CI/CD та якість коду

Docker Compose

FastAPI - API даних

Просунутий SQL для Data Engineering

Data Lake - Архітектура та завантаження даних

BigQuery для Data Engineering

PostgreSQL - Адміністрування

Data Modeling для Data Engineering

Fivetran & Airbyte - Завантаження даних

dbt - Основи

Apache Airflow - Основи

Kubernetes - Основи

dbt - Розширені можливості

Apache Airflow - Просунутий

Airflow + dbt - Оркестрація пайплайнів

PySpark - Великомасштабна обробка

Google Pub/Sub - Стрімінг даних

Apache Beam & Dataflow

Kubernetes - Продакшн та масштабування

Terraform - Infrastructure as Code

Бази даних NoSQL

Сучасна Data Architecture

Моніторинг та спостережуваність

IAM та безпека даних

Опануй Data Engineering для наступної співбесіди