Data Engineering

Apache Airflow - Основи

DAG, operators (Bash, Python, SQL), планування, залежності задач, Airflow UI, connections, variables, trigger rules

20 питань зі співбесід·
Mid-Level
1

Що таке DAG в Apache Airflow?

Відповідь

DAG (Directed Acyclic Graph) - це колекція задач, організованих із залежностями та зв'язками, що представляє повний workflow. Ациклічність означає, що в графі залежностей не може бути циклів, що гарантує виконання кожної задачі точно один раз за запуск. DAG визначає коли і як задачі повинні виконуватися, але не те, що вони конкретно роблять.

2

Який параметр DAG визначає дату, з якої scheduler починає планувати запуски?

Відповідь

Параметр start_date визначає дату, з якої Airflow починає планувати запуски DAG. Ця дата використовується разом з schedule_interval для визначення data intervals. Важливий момент: якщо start_date у минулому, Airflow може запускати backfill для надолуження пропущених запусків, якщо не налаштовано catchup=False.

3

Який operator слід використовувати для виконання функції Python у DAG Airflow?

Відповідь

PythonOperator дозволяє виконувати callable функцію Python у DAG Airflow. Функція передається через параметр python_callable і може отримувати аргументи через op_args (список) або op_kwargs (словник). PythonOperator є одним з найбільш використовуваних operator-ів, оскільки забезпечує велику гнучкість для виконання користувацького коду Python.

4

Як визначити залежність між двома задачами task_a та task_b, щоб task_b виконувалася після task_a?

5

Який cron-вираз представляє щоденне виконання опівночі?

+17 питань зі співбесід

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Junior
20 запитань

Git & GitHub - Основи

Junior
20 запитань

Просунутий Python для Data Engineering

Junior
25 запитань

Docker - Основи

Junior
25 запитань

Google Cloud Platform - Основи

Junior
20 запитань

CI/CD та якість коду

Mid-Level
20 запитань

Docker Compose

Mid-Level
20 запитань

FastAPI - API даних

Mid-Level
20 запитань

Просунутий SQL для Data Engineering

Mid-Level
20 запитань

Data Lake - Архітектура та завантаження даних

Mid-Level
20 запитань

BigQuery для Data Engineering

Mid-Level
20 запитань

PostgreSQL - Адміністрування

Mid-Level
20 запитань

Data Modeling для Data Engineering

Mid-Level
20 запитань

Fivetran & Airbyte - Завантаження даних

Mid-Level
20 запитань

dbt - Основи

Mid-Level
20 запитань

Kubernetes - Основи

Mid-Level
20 запитань

dbt - Розширені можливості

Senior
20 запитань

Патерни ETL / ELT / ETLT

Senior
20 запитань

Apache Airflow - Просунутий

Senior
20 запитань

Airflow + dbt - Оркестрація пайплайнів

Senior
20 запитань

PySpark - Великомасштабна обробка

Senior
20 запитань

Google Pub/Sub - Стрімінг даних

Senior
20 запитань

Apache Beam & Dataflow

Senior
20 запитань

Kubernetes - Продакшн та масштабування

Senior
20 запитань

Terraform - Infrastructure as Code

Senior
20 запитань

Бази даних NoSQL

Senior
20 запитань

Сучасна Data Architecture

Senior
20 запитань

Моніторинг та спостережуваність

Senior
20 запитань

IAM та безпека даних

Senior
20 запитань

Опануй Data Engineering для наступної співбесіди

Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.

Почни безкоштовно