Question 1

O que é uma PCollection no Apache Beam?

Accepted Answer

Uma PCollection é a principal abstração de dados no Apache Beam. Ela representa um conjunto de dados distribuído e potencialmente ilimitado que pode ser processado em paralelo. Diferente das coleções comuns, uma PCollection é imutável, ou seja, cada transform cria uma nova PCollection em vez de modificar a original.

Question 2

Qual é a principal diferença entre uma PCollection bounded e unbounded?

Accepted Answer

Uma PCollection bounded tem tamanho finito e conhecido (como um arquivo ou tabela), enquanto uma unbounded representa um fluxo de dados potencialmente infinito (como eventos de streaming). Essa distinção afeta como o Beam processa os dados: bounded usa processamento batch clássico, enquanto unbounded requer windowing e triggers para lidar com o fluxo contínuo.

Question 3

Qual é o papel da transformação ParDo no Apache Beam?

Accepted Answer

ParDo (Parallel Do) é a transformação mais flexível do Apache Beam. Ela aplica uma função definida pelo usuário (DoFn) a cada elemento de uma PCollection em paralelo. ParDo pode produzir zero, um ou múltiplos elementos de saída para cada elemento de entrada, tornando-a adequada para filtragem, mapping e flat-mapping.

Apache Beam & Dataflow

O que é uma PCollection no Apache Beam?

Resposta

Qual é a principal diferença entre uma PCollection bounded e unbounded?

Resposta

Qual é o papel da transformação ParDo no Apache Beam?

Resposta

Como usar side inputs em uma transformação ParDo?

Qual é a diferença entre GroupByKey e CoGroupByKey no Apache Beam?

Outros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avançado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD e qualidade de código

Docker Compose

FastAPI - APIs de dados

SQL avançado para Data Engineering

Data Lake - Arquitetura e ingestão

BigQuery para Data Engineering

PostgreSQL - Administração

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingestão de dados

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Recursos avançados

Padrões ETL / ELT / ETLT

Apache Airflow - Avançado

Airflow + dbt - Orquestração de pipelines

PySpark - Processamento em grande escala

Google Pub/Sub - Streaming de dados

Kubernetes - Produção e escalabilidade

Terraform - Infrastructure as Code

Bancos de dados NoSQL

Arquitetura Data moderna

Monitoramento e observabilidade

IAM e segurança de dados

Domine Data Engineering para sua proxima entrevista