Data Engineering

Apache Beam & Dataflow

PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates

20 domande da colloquio·
Senior
1

Cos'è una PCollection in Apache Beam?

Risposta

Una PCollection è l'astrazione dati principale in Apache Beam. Rappresenta un dataset distribuito e potenzialmente illimitato che può essere elaborato in parallelo. A differenza delle collection regolari, una PCollection è immutabile, il che significa che ogni transform crea una nuova PCollection invece di modificare l'originale.

2

Qual è la differenza principale tra una PCollection bounded e unbounded?

Risposta

Una PCollection bounded ha una dimensione finita e nota (come un file o una tabella), mentre una unbounded rappresenta un flusso di dati potenzialmente infinito (come eventi in streaming). Questa distinzione influisce sul modo in cui Beam elabora i dati: bounded usa l'elaborazione batch classica, mentre unbounded richiede windowing e trigger per gestire il flusso continuo.

3

Qual è il ruolo della trasformazione ParDo in Apache Beam?

Risposta

ParDo (Parallel Do) è la trasformazione più flessibile in Apache Beam. Applica una funzione definita dall'utente (DoFn) a ciascun elemento di una PCollection in parallelo. ParDo può produrre zero, uno o più elementi di output per ogni elemento di input, rendendola adatta per filtering, mapping e flat-mapping.

4

Come usare i side input in una trasformazione ParDo?

5

Qual è la differenza tra GroupByKey e CoGroupByKey in Apache Beam?

+17 domande da colloquio

Padroneggia Data Engineering per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis