Data Engineering

Apache Airflow - Avancé

Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring

20 questions d'entretien·
Senior
1

Quel est le rôle principal d'un Sensor dans Apache Airflow ?

Réponse

Un Sensor est un opérateur spécial qui attend qu'une condition soit remplie avant de continuer l'exécution du DAG. Il vérifie périodiquement (poke) si la condition est satisfaite, comme l'arrivée d'un fichier, la disponibilité d'une partition ou l'état d'une autre tâche. Les Sensors sont essentiels pour orchestrer des workflows dépendant d'événements externes.

2

Quelle est la différence entre les modes 'poke' et 'reschedule' pour un Sensor ?

Réponse

En mode poke, le Sensor occupe un worker slot en continu et vérifie la condition à intervalles réguliers (poke_interval). En mode reschedule, le Sensor libère le worker slot entre chaque vérification et se reschedule. Le mode reschedule est recommandé pour les conditions longues à satisfaire car il libère des ressources pour d'autres tâches.

3

Quel Sensor utiliser pour attendre qu'une partition Hive soit disponible ?

Réponse

HivePartitionSensor vérifie l'existence d'une partition spécifique dans une table Hive. Il est couramment utilisé dans les pipelines de données pour s'assurer que les données sources sont disponibles avant de lancer les transformations. Il accepte des paramètres comme schema, table et partition à vérifier.

4

Comment transmettre des données entre deux tâches Airflow ?

5

Quelle est la taille maximale recommandée pour les données stockées dans XCom ?

+17 questions d'entretien

Maîtrise Data Engineering pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement