
Apache Beam & Dataflow
PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoescalonamento, templates
1O que é uma PCollection no Apache Beam?
O que é uma PCollection no Apache Beam?
Resposta
Uma PCollection é a principal abstração de dados no Apache Beam. Ela representa um conjunto de dados distribuído e potencialmente ilimitado que pode ser processado em paralelo. Diferente das coleções comuns, uma PCollection é imutável, ou seja, cada transform cria uma nova PCollection em vez de modificar a original.
2Qual é a principal diferença entre uma PCollection bounded e unbounded?
Qual é a principal diferença entre uma PCollection bounded e unbounded?
Resposta
Uma PCollection bounded tem tamanho finito e conhecido (como um arquivo ou tabela), enquanto uma unbounded representa um fluxo de dados potencialmente infinito (como eventos de streaming). Essa distinção afeta como o Beam processa os dados: bounded usa processamento batch clássico, enquanto unbounded requer windowing e triggers para lidar com o fluxo contínuo.
3Qual é o papel da transformação ParDo no Apache Beam?
Qual é o papel da transformação ParDo no Apache Beam?
Resposta
ParDo (Parallel Do) é a transformação mais flexível do Apache Beam. Ela aplica uma função definida pelo usuário (DoFn) a cada elemento de uma PCollection em paralelo. ParDo pode produzir zero, um ou múltiplos elementos de saída para cada elemento de entrada, tornando-a adequada para filtragem, mapping e flat-mapping.
Como usar side inputs em uma transformação ParDo?
Qual é a diferença entre GroupByKey e CoGroupByKey no Apache Beam?
+17 perguntas de entrevista
Outros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avançado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD e qualidade de código
Docker Compose
FastAPI - APIs de dados
SQL avançado para Data Engineering
Data Lake - Arquitetura e ingestão
BigQuery para Data Engineering
PostgreSQL - Administração
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingestão de dados
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Recursos avançados
Padrões ETL / ELT / ETLT
Apache Airflow - Avançado
Airflow + dbt - Orquestração de pipelines
PySpark - Processamento em grande escala
Google Pub/Sub - Streaming de dados
Kubernetes - Produção e escalabilidade
Terraform - Infrastructure as Code
Bancos de dados NoSQL
Arquitetura Data moderna
Monitoramento e observabilidade
IAM e segurança de dados
Domine Data Engineering para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis