Question 1

Wat is de hoofdrol van een Sensor in Apache Airflow?

Accepted Answer

Een Sensor is een speciale operator die wacht tot een voorwaarde is vervuld voordat de DAG-uitvoering wordt voortgezet. Hij controleert periodiek (poke) of aan de voorwaarde is voldaan, zoals de aankomst van een bestand, de beschikbaarheid van een partitie of de status van een andere taak. Sensors zijn essentieel voor het orkestreren van workflows die afhankelijk zijn van externe gebeurtenissen.

Question 2

Wat is het verschil tussen de modi 'poke' en 'reschedule' voor een Sensor?

Accepted Answer

In poke-modus bezet de Sensor continu een worker slot en controleert de voorwaarde op regelmatige intervallen (poke_interval). In reschedule-modus geeft de Sensor het worker slot vrij tussen controles en hertaplant zichzelf. De reschedule-modus wordt aanbevolen voor langdurige voorwaarden omdat het resources vrijmaakt voor andere taken.

Question 3

Welke Sensor moet worden gebruikt om te wachten tot een Hive-partitie beschikbaar is?

Accepted Answer

HivePartitionSensor controleert het bestaan van een specifieke partitie in een Hive-tabel. Het wordt vaak gebruikt in datapipelines om ervoor te zorgen dat brondata beschikbaar is voordat transformaties worden uitgevoerd. Het accepteert parameters zoals schema, table en partition om te controleren.

Apache Airflow - Gevorderd

Wat is de hoofdrol van een Sensor in Apache Airflow?

Antwoord

Wat is het verschil tussen de modi 'poke' en 'reschedule' voor een Sensor?

Antwoord

Welke Sensor moet worden gebruikt om te wachten tot een Hive-partitie beschikbaar is?

Antwoord

Hoe geef je data door tussen twee Airflow-taken?

Wat is de aanbevolen maximale grootte voor data opgeslagen in XCom?

Andere Data Engineering-sollicitatieonderwerpen

Linux & Shell - Grondbeginselen

Git & GitHub - Grondbeginselen

Geavanceerde Python voor Data Engineering

Docker - Basisbeginselen

Google Cloud Platform - Fundamenten

CI/CD en codekwaliteit

Docker Compose

FastAPI - Data-API's

Geavanceerde SQL voor Data Engineering

Data Lake - Architectuur en ingestie

BigQuery voor Data Engineering

PostgreSQL - Administratie

Data Modeling voor Data Engineering

Fivetran & Airbyte - Data-ingestie

dbt - Grondbeginselen

Apache Airflow - Grondbeginselen

Kubernetes - Fundamenten

dbt - Geavanceerde functies

ETL- / ELT- / ETLT-patronen

Airflow + dbt - Pipeline-orkestratie

PySpark - Grootschalige verwerking

Google Pub/Sub - Datastreaming

Apache Beam & Dataflow

Kubernetes - Productie en scaling

Terraform - Infrastructure as Code

NoSQL-databases

Moderne Data Architecture

Monitoring en observability

IAM en gegevensbeveiliging

Beheers Data Engineering voor je volgende gesprek