
Apache Airflow - Просунутий
Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring
1Яка основна роль Sensor в Apache Airflow?
Яка основна роль Sensor в Apache Airflow?
Відповідь
Sensor — це спеціальний оператор, який чекає, поки умова буде виконана, перед продовженням виконання DAG. Він періодично перевіряє (poke), чи виконана умова, наприклад надходження файлу, доступність партиції або стан іншого завдання. Sensors є необхідними для оркестрації workflow, що залежать від зовнішніх подій.
2Яка різниця між режимами 'poke' та 'reschedule' для Sensor?
Яка різниця між режимами 'poke' та 'reschedule' для Sensor?
Відповідь
У режимі poke Sensor безперервно займає worker slot і перевіряє умову через регулярні інтервали (poke_interval). У режимі reschedule Sensor звільняє worker slot між перевірками і перепризначає себе. Режим reschedule рекомендований для тривалих умов, оскільки звільняє ресурси для інших завдань.
3Який Sensor слід використовувати, щоб чекати на доступність партиції Hive?
Який Sensor слід використовувати, щоб чекати на доступність партиції Hive?
Відповідь
HivePartitionSensor перевіряє існування конкретної партиції в таблиці Hive. Він зазвичай використовується в data pipelines, щоб переконатися, що вихідні дані доступні перед запуском трансформацій. Він приймає такі параметри, як schema, table та partition для перевірки.
Як передати дані між двома завданнями Airflow?
Який рекомендований максимальний розмір для даних, що зберігаються в XCom?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
Fivetran & Airbyte - Завантаження даних
dbt - Основи
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Airflow + dbt - Оркестрація пайплайнів
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно