
Apache Airflow - Основи
DAG, operators (Bash, Python, SQL), планування, залежності задач, Airflow UI, connections, variables, trigger rules
1Що таке DAG в Apache Airflow?
Що таке DAG в Apache Airflow?
Відповідь
DAG (Directed Acyclic Graph) - це колекція задач, організованих із залежностями та зв'язками, що представляє повний workflow. Ациклічність означає, що в графі залежностей не може бути циклів, що гарантує виконання кожної задачі точно один раз за запуск. DAG визначає коли і як задачі повинні виконуватися, але не те, що вони конкретно роблять.
2Який параметр DAG визначає дату, з якої scheduler починає планувати запуски?
Який параметр DAG визначає дату, з якої scheduler починає планувати запуски?
Відповідь
Параметр start_date визначає дату, з якої Airflow починає планувати запуски DAG. Ця дата використовується разом з schedule_interval для визначення data intervals. Важливий момент: якщо start_date у минулому, Airflow може запускати backfill для надолуження пропущених запусків, якщо не налаштовано catchup=False.
3Який operator слід використовувати для виконання функції Python у DAG Airflow?
Який operator слід використовувати для виконання функції Python у DAG Airflow?
Відповідь
PythonOperator дозволяє виконувати callable функцію Python у DAG Airflow. Функція передається через параметр python_callable і може отримувати аргументи через op_args (список) або op_kwargs (словник). PythonOperator є одним з найбільш використовуваних operator-ів, оскільки забезпечує велику гнучкість для виконання користувацького коду Python.
Як визначити залежність між двома задачами task_a та task_b, щоб task_b виконувалася після task_a?
Який cron-вираз представляє щоденне виконання опівночі?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
Fivetran & Airbyte - Завантаження даних
dbt - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Apache Airflow - Просунутий
Airflow + dbt - Оркестрація пайплайнів
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно