Data Engineering

Apache Beam & Dataflow

PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoescalonamento, templates

20 perguntas de entrevista·
Senior
1

O que é uma PCollection no Apache Beam?

Resposta

Uma PCollection é a principal abstração de dados no Apache Beam. Ela representa um conjunto de dados distribuído e potencialmente ilimitado que pode ser processado em paralelo. Diferente das coleções comuns, uma PCollection é imutável, ou seja, cada transform cria uma nova PCollection em vez de modificar a original.

2

Qual é a principal diferença entre uma PCollection bounded e unbounded?

Resposta

Uma PCollection bounded tem tamanho finito e conhecido (como um arquivo ou tabela), enquanto uma unbounded representa um fluxo de dados potencialmente infinito (como eventos de streaming). Essa distinção afeta como o Beam processa os dados: bounded usa processamento batch clássico, enquanto unbounded requer windowing e triggers para lidar com o fluxo contínuo.

3

Qual é o papel da transformação ParDo no Apache Beam?

Resposta

ParDo (Parallel Do) é a transformação mais flexível do Apache Beam. Ela aplica uma função definida pelo usuário (DoFn) a cada elemento de uma PCollection em paralelo. ParDo pode produzir zero, um ou múltiplos elementos de saída para cada elemento de entrada, tornando-a adequada para filtragem, mapping e flat-mapping.

4

Como usar side inputs em uma transformação ParDo?

5

Qual é a diferença entre GroupByKey e CoGroupByKey no Apache Beam?

+17 perguntas de entrevista

Domine Data Engineering para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis