
Apache Beam & Dataflow
PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates
1Cos'è una PCollection in Apache Beam?
Cos'è una PCollection in Apache Beam?
Risposta
Una PCollection è l'astrazione dati principale in Apache Beam. Rappresenta un dataset distribuito e potenzialmente illimitato che può essere elaborato in parallelo. A differenza delle collection regolari, una PCollection è immutabile, il che significa che ogni transform crea una nuova PCollection invece di modificare l'originale.
2Qual è la differenza principale tra una PCollection bounded e unbounded?
Qual è la differenza principale tra una PCollection bounded e unbounded?
Risposta
Una PCollection bounded ha una dimensione finita e nota (come un file o una tabella), mentre una unbounded rappresenta un flusso di dati potenzialmente infinito (come eventi in streaming). Questa distinzione influisce sul modo in cui Beam elabora i dati: bounded usa l'elaborazione batch classica, mentre unbounded richiede windowing e trigger per gestire il flusso continuo.
3Qual è il ruolo della trasformazione ParDo in Apache Beam?
Qual è il ruolo della trasformazione ParDo in Apache Beam?
Risposta
ParDo (Parallel Do) è la trasformazione più flessibile in Apache Beam. Applica una funzione definita dall'utente (DoFn) a ciascun elemento di una PCollection in parallelo. ParDo può produrre zero, uno o più elementi di output per ogni elemento di input, rendendola adatta per filtering, mapping e flat-mapping.
Come usare i side input in una trasformazione ParDo?
Qual è la differenza tra GroupByKey e CoGroupByKey in Apache Beam?
+17 domande da colloquio
Altri argomenti di colloquio Data Engineering
Linux & Shell - Fondamenti
Git & GitHub - Fondamenti
Python avanzato per Data Engineering
Docker - Fondamenti
Google Cloud Platform - Fondamenti
CI/CD e qualità del codice
Docker Compose
FastAPI - API per dati
SQL avanzato per il Data Engineering
Data Lake - Architettura e ingestione
BigQuery per il Data Engineering
PostgreSQL - Amministrazione
Data Modeling per Data Engineering
Fivetran & Airbyte - Ingestione dati
dbt - Fondamenti
Apache Airflow - Fondamenti
Kubernetes - Fondamenti
dbt - Funzionalità avanzate
Pattern ETL / ELT / ETLT
Apache Airflow - Avanzato
Airflow + dbt - Orchestrazione delle pipeline
PySpark - Elaborazione su larga scala
Google Pub/Sub - Streaming di dati
Kubernetes - Produzione e scaling
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture moderna
Monitoraggio e osservabilità
IAM e sicurezza dei dati
Padroneggia Data Engineering per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis