
Apache Beam & Dataflow
PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoescalado, templates
1¿Qué es una PCollection en Apache Beam?
¿Qué es una PCollection en Apache Beam?
Respuesta
Una PCollection es la abstracción de datos principal en Apache Beam. Representa un conjunto de datos distribuido y potencialmente ilimitado que puede procesarse en paralelo. A diferencia de las colecciones regulares, una PCollection es inmutable, lo que significa que cada transform crea una nueva PCollection en lugar de modificar la original.
2¿Cuál es la diferencia principal entre una PCollection bounded y unbounded?
¿Cuál es la diferencia principal entre una PCollection bounded y unbounded?
Respuesta
Una PCollection bounded tiene un tamaño finito y conocido (como un archivo o tabla), mientras que una unbounded representa un flujo de datos potencialmente infinito (como eventos de streaming). Esta distinción afecta cómo Beam procesa los datos: bounded usa el procesamiento batch clásico, mientras que unbounded requiere windowing y triggers para manejar el flujo continuo.
3¿Cuál es el rol de la transformación ParDo en Apache Beam?
¿Cuál es el rol de la transformación ParDo en Apache Beam?
Respuesta
ParDo (Parallel Do) es la transformación más flexible de Apache Beam. Aplica una función definida por el usuario (DoFn) a cada elemento de una PCollection en paralelo. ParDo puede producir cero, uno o varios elementos de salida por cada elemento de entrada, lo que la hace adecuada para filtrado, mapping y flat-mapping.
¿Cómo usar los side inputs en una transformación ParDo?
¿Cuál es la diferencia entre GroupByKey y CoGroupByKey en Apache Beam?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
BigQuery para Data Engineering
PostgreSQL - Administración
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingesta de datos
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Apache Airflow - Avanzado
Airflow + dbt - Orquestación de pipelines
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis