Question 1

Quel est le rôle principal d'un Sensor dans Apache Airflow ?

Accepted Answer

Un Sensor est un opérateur spécial qui attend qu'une condition soit remplie avant de continuer l'exécution du DAG. Il vérifie périodiquement (poke) si la condition est satisfaite, comme l'arrivée d'un fichier, la disponibilité d'une partition ou l'état d'une autre tâche. Les Sensors sont essentiels pour orchestrer des workflows dépendant d'événements externes.

Question 2

Quelle est la différence entre les modes 'poke' et 'reschedule' pour un Sensor ?

Accepted Answer

En mode poke, le Sensor occupe un worker slot en continu et vérifie la condition à intervalles réguliers (poke_interval). En mode reschedule, le Sensor libère le worker slot entre chaque vérification et se reschedule. Le mode reschedule est recommandé pour les conditions longues à satisfaire car il libère des ressources pour d'autres tâches.

Question 3

Quel Sensor utiliser pour attendre qu'une partition Hive soit disponible ?

Accepted Answer

HivePartitionSensor vérifie l'existence d'une partition spécifique dans une table Hive. Il est couramment utilisé dans les pipelines de données pour s'assurer que les données sources sont disponibles avant de lancer les transformations. Il accepte des paramètres comme schema, table et partition à vérifier.

Apache Airflow - Avancé

Quel est le rôle principal d'un Sensor dans Apache Airflow ?

Réponse

Quelle est la différence entre les modes 'poke' et 'reschedule' pour un Sensor ?

Réponse

Quel Sensor utiliser pour attendre qu'une partition Hive soit disponible ?

Réponse

Comment transmettre des données entre deux tâches Airflow ?

Quelle est la taille maximale recommandée pour les données stockées dans XCom ?

Autres sujets d'entretien Data Engineering

Linux & Shell - Fondamentaux

Git & GitHub - Fondamentaux

Python avancé pour le Data Engineering

Docker - Fondamentaux

Google Cloud Platform - Fondamentaux

CI/CD et qualité de code

Docker Compose

FastAPI - APIs de données

SQL avancé pour le Data Engineering

Data Lake - Architecture et ingestion

BigQuery pour le Data Engineering

PostgreSQL - Administration

Data Modeling pour le Data Engineering

Fivetran & Airbyte - Ingestion de données

dbt - Fondamentaux

Apache Airflow - Fondamentaux

Kubernetes - Fondamentaux

dbt - Fonctionnalités avancées

Patterns ETL / ELT / ETLT

Airflow + dbt - Orchestration de pipelines

PySpark - Traitement à grande échelle

Google Pub/Sub - Streaming de données

Apache Beam & Dataflow

Kubernetes - Production et scaling

Terraform - Infrastructure as Code

Bases de données NoSQL

Architecture Data moderne

Monitoring et observabilité

IAM et sécurité des données

Maîtrise Data Engineering pour ton prochain entretien