Data Engineering

Apache Beam & Dataflow

PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoescalado, templates

20 preguntas de entrevista·
Senior
1

¿Qué es una PCollection en Apache Beam?

Respuesta

Una PCollection es la abstracción de datos principal en Apache Beam. Representa un conjunto de datos distribuido y potencialmente ilimitado que puede procesarse en paralelo. A diferencia de las colecciones regulares, una PCollection es inmutable, lo que significa que cada transform crea una nueva PCollection en lugar de modificar la original.

2

¿Cuál es la diferencia principal entre una PCollection bounded y unbounded?

Respuesta

Una PCollection bounded tiene un tamaño finito y conocido (como un archivo o tabla), mientras que una unbounded representa un flujo de datos potencialmente infinito (como eventos de streaming). Esta distinción afecta cómo Beam procesa los datos: bounded usa el procesamiento batch clásico, mientras que unbounded requiere windowing y triggers para manejar el flujo continuo.

3

¿Cuál es el rol de la transformación ParDo en Apache Beam?

Respuesta

ParDo (Parallel Do) es la transformación más flexible de Apache Beam. Aplica una función definida por el usuario (DoFn) a cada elemento de una PCollection en paralelo. ParDo puede producir cero, uno o varios elementos de salida por cada elemento de entrada, lo que la hace adecuada para filtrado, mapping y flat-mapping.

4

¿Cómo usar los side inputs en una transformación ParDo?

5

¿Cuál es la diferencia entre GroupByKey y CoGroupByKey en Apache Beam?

+17 preguntas de entrevista

Domina Data Engineering para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis