
Apache Beam & Dataflow
PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates
1Wat is een PCollection in Apache Beam?
Wat is een PCollection in Apache Beam?
Antwoord
Een PCollection is de primaire dataabstractie in Apache Beam. Het vertegenwoordigt een gedistribueerde, potentieel onbegrensde dataset die parallel kan worden verwerkt. In tegenstelling tot reguliere collecties is een PCollection immutable, wat betekent dat elke transform een nieuwe PCollection maakt in plaats van het origineel te wijzigen.
2Wat is het belangrijkste verschil tussen een bounded en unbounded PCollection?
Wat is het belangrijkste verschil tussen een bounded en unbounded PCollection?
Antwoord
Een bounded PCollection heeft een eindige, bekende grootte (zoals een bestand of tabel), terwijl een unbounded een potentieel oneindige datastroom vertegenwoordigt (zoals streaming events). Dit onderscheid beïnvloedt hoe Beam data verwerkt: bounded gebruikt klassieke batchverwerking, terwijl unbounded windowing en triggers vereist om de continue stroom te beheren.
3Wat is de rol van de ParDo-transformatie in Apache Beam?
Wat is de rol van de ParDo-transformatie in Apache Beam?
Antwoord
ParDo (Parallel Do) is de meest flexibele transformatie in Apache Beam. Het past een door de gebruiker gedefinieerde functie (DoFn) parallel toe op elk element van een PCollection. ParDo kan nul, één of meerdere outputelementen produceren voor elk inputelement, waardoor het geschikt is voor filtering, mapping en flat-mapping.
Hoe gebruik je side inputs in een ParDo-transformatie?
Wat is het verschil tussen GroupByKey en CoGroupByKey in Apache Beam?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
Data Lake - Architectuur en ingestie
BigQuery voor Data Engineering
PostgreSQL - Administratie
Data Modeling voor Data Engineering
Fivetran & Airbyte - Data-ingestie
dbt - Grondbeginselen
Apache Airflow - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
ETL- / ELT- / ETLT-patronen
Apache Airflow - Gevorderd
Airflow + dbt - Pipeline-orkestratie
PySpark - Grootschalige verwerking
Google Pub/Sub - Datastreaming
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Moderne Data Architecture
Monitoring en observability
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis