Data Engineering

Apache Beam & Dataflow

PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates

20 questions d'entretien·
Senior
1

Qu'est-ce qu'une PCollection dans Apache Beam ?

Réponse

Une PCollection est l'abstraction de données principale dans Apache Beam. Elle représente un ensemble distribué et potentiellement illimité de données qui peut être traité en parallèle. Contrairement aux collections classiques, une PCollection est immuable, ce qui signifie que chaque transformation crée une nouvelle PCollection plutôt que de modifier l'originale.

2

Quelle est la différence principale entre une PCollection bounded et unbounded ?

Réponse

Une PCollection bounded a une taille finie et connue (comme un fichier ou une table), tandis qu'une unbounded représente un flux de données potentiellement infini (comme des événements en streaming). Cette distinction affecte la façon dont Beam traite les données : bounded utilise le traitement batch classique, tandis que unbounded nécessite du windowing et des triggers pour gérer le flux continu.

3

Quel est le rôle de la transformation ParDo dans Apache Beam ?

Réponse

ParDo (Parallel Do) est la transformation la plus flexible d'Apache Beam. Elle applique une fonction définie par l'utilisateur (DoFn) à chaque élément d'une PCollection en parallèle. ParDo peut produire zéro, un ou plusieurs éléments en sortie pour chaque élément en entrée, ce qui la rend adaptée au filtrage, mapping, et flat-mapping.

4

Comment utiliser les side inputs dans une transformation ParDo ?

5

Quelle est la différence entre GroupByKey et CoGroupByKey dans Apache Beam ?

+17 questions d'entretien

Maîtrise Data Engineering pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement