
Apache Beam & Dataflow
PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates
1Qu'est-ce qu'une PCollection dans Apache Beam ?
Qu'est-ce qu'une PCollection dans Apache Beam ?
Réponse
Une PCollection est l'abstraction de données principale dans Apache Beam. Elle représente un ensemble distribué et potentiellement illimité de données qui peut être traité en parallèle. Contrairement aux collections classiques, une PCollection est immuable, ce qui signifie que chaque transformation crée une nouvelle PCollection plutôt que de modifier l'originale.
2Quelle est la différence principale entre une PCollection bounded et unbounded ?
Quelle est la différence principale entre une PCollection bounded et unbounded ?
Réponse
Une PCollection bounded a une taille finie et connue (comme un fichier ou une table), tandis qu'une unbounded représente un flux de données potentiellement infini (comme des événements en streaming). Cette distinction affecte la façon dont Beam traite les données : bounded utilise le traitement batch classique, tandis que unbounded nécessite du windowing et des triggers pour gérer le flux continu.
3Quel est le rôle de la transformation ParDo dans Apache Beam ?
Quel est le rôle de la transformation ParDo dans Apache Beam ?
Réponse
ParDo (Parallel Do) est la transformation la plus flexible d'Apache Beam. Elle applique une fonction définie par l'utilisateur (DoFn) à chaque élément d'une PCollection en parallèle. ParDo peut produire zéro, un ou plusieurs éléments en sortie pour chaque élément en entrée, ce qui la rend adaptée au filtrage, mapping, et flat-mapping.
Comment utiliser les side inputs dans une transformation ParDo ?
Quelle est la différence entre GroupByKey et CoGroupByKey dans Apache Beam ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
Data Lake - Architecture et ingestion
BigQuery pour le Data Engineering
PostgreSQL - Administration
Data Modeling pour le Data Engineering
Fivetran & Airbyte - Ingestion de données
dbt - Fondamentaux
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Patterns ETL / ELT / ETLT
Apache Airflow - Avancé
Airflow + dbt - Orchestration de pipelines
PySpark - Traitement à grande échelle
Google Pub/Sub - Streaming de données
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Architecture Data moderne
Monitoring et observabilité
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement