Question 1

Qu'est-ce qu'une PCollection dans Apache Beam ?

Accepted Answer

Une PCollection est l'abstraction de données principale dans Apache Beam. Elle représente un ensemble distribué et potentiellement illimité de données qui peut être traité en parallèle. Contrairement aux collections classiques, une PCollection est immuable, ce qui signifie que chaque transformation crée une nouvelle PCollection plutôt que de modifier l'originale.

Question 2

Quelle est la différence principale entre une PCollection bounded et unbounded ?

Accepted Answer

Une PCollection bounded a une taille finie et connue (comme un fichier ou une table), tandis qu'une unbounded représente un flux de données potentiellement infini (comme des événements en streaming). Cette distinction affecte la façon dont Beam traite les données : bounded utilise le traitement batch classique, tandis que unbounded nécessite du windowing et des triggers pour gérer le flux continu.

Question 3

Quel est le rôle de la transformation ParDo dans Apache Beam ?

Accepted Answer

ParDo (Parallel Do) est la transformation la plus flexible d'Apache Beam. Elle applique une fonction définie par l'utilisateur (DoFn) à chaque élément d'une PCollection en parallèle. ParDo peut produire zéro, un ou plusieurs éléments en sortie pour chaque élément en entrée, ce qui la rend adaptée au filtrage, mapping, et flat-mapping.

Apache Beam & Dataflow

Qu'est-ce qu'une PCollection dans Apache Beam ?

Réponse

Quelle est la différence principale entre une PCollection bounded et unbounded ?

Réponse

Quel est le rôle de la transformation ParDo dans Apache Beam ?

Réponse

Comment utiliser les side inputs dans une transformation ParDo ?

Quelle est la différence entre GroupByKey et CoGroupByKey dans Apache Beam ?

Autres sujets d'entretien Data Engineering

Linux & Shell - Fondamentaux

Git & GitHub - Fondamentaux

Python avancé pour le Data Engineering

Docker - Fondamentaux

Google Cloud Platform - Fondamentaux

CI/CD et qualité de code

Docker Compose

FastAPI - APIs de données

SQL avancé pour le Data Engineering

Data Lake - Architecture et ingestion

BigQuery pour le Data Engineering

PostgreSQL - Administration

Data Modeling pour le Data Engineering

Fivetran & Airbyte - Ingestion de données

dbt - Fondamentaux

Apache Airflow - Fondamentaux

Kubernetes - Fondamentaux

dbt - Fonctionnalités avancées

Patterns ETL / ELT / ETLT

Apache Airflow - Avancé

Airflow + dbt - Orchestration de pipelines

PySpark - Traitement à grande échelle

Google Pub/Sub - Streaming de données

Kubernetes - Production et scaling

Terraform - Infrastructure as Code

Bases de données NoSQL

Architecture Data moderne

Monitoring et observabilité

IAM et sécurité des données

Maîtrise Data Engineering pour ton prochain entretien