
Apache Airflow - Avancé
Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring
1Quel est le rôle principal d'un Sensor dans Apache Airflow ?
Quel est le rôle principal d'un Sensor dans Apache Airflow ?
Réponse
Un Sensor est un opérateur spécial qui attend qu'une condition soit remplie avant de continuer l'exécution du DAG. Il vérifie périodiquement (poke) si la condition est satisfaite, comme l'arrivée d'un fichier, la disponibilité d'une partition ou l'état d'une autre tâche. Les Sensors sont essentiels pour orchestrer des workflows dépendant d'événements externes.
2Quelle est la différence entre les modes 'poke' et 'reschedule' pour un Sensor ?
Quelle est la différence entre les modes 'poke' et 'reschedule' pour un Sensor ?
Réponse
En mode poke, le Sensor occupe un worker slot en continu et vérifie la condition à intervalles réguliers (poke_interval). En mode reschedule, le Sensor libère le worker slot entre chaque vérification et se reschedule. Le mode reschedule est recommandé pour les conditions longues à satisfaire car il libère des ressources pour d'autres tâches.
3Quel Sensor utiliser pour attendre qu'une partition Hive soit disponible ?
Quel Sensor utiliser pour attendre qu'une partition Hive soit disponible ?
Réponse
HivePartitionSensor vérifie l'existence d'une partition spécifique dans une table Hive. Il est couramment utilisé dans les pipelines de données pour s'assurer que les données sources sont disponibles avant de lancer les transformations. Il accepte des paramètres comme schema, table et partition à vérifier.
Comment transmettre des données entre deux tâches Airflow ?
Quelle est la taille maximale recommandée pour les données stockées dans XCom ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
Data Lake - Architecture et ingestion
BigQuery pour le Data Engineering
PostgreSQL - Administration
Data Modeling pour le Data Engineering
Fivetran & Airbyte - Ingestion de données
dbt - Fondamentaux
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Patterns ETL / ELT / ETLT
Airflow + dbt - Orchestration de pipelines
PySpark - Traitement à grande échelle
Google Pub/Sub - Streaming de données
Apache Beam & Dataflow
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Architecture Data moderne
Monitoring et observabilité
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement