
Apache Beam & Dataflow
PCollections, Transforms (ParDo, GroupByKey), Windowing, Triggers, Watermarks, Dataflow Runner, Autoscaling, Templates
1Was ist eine PCollection in Apache Beam?
Was ist eine PCollection in Apache Beam?
Antwort
Eine PCollection ist die primäre Datenabstraktion in Apache Beam. Sie repräsentiert einen verteilten, potenziell unbegrenzten Datensatz, der parallel verarbeitet werden kann. Im Gegensatz zu regulären Collections ist eine PCollection unveränderlich, was bedeutet, dass jeder Transform eine neue PCollection erstellt, anstatt das Original zu modifizieren.
2Was ist der Hauptunterschied zwischen einer bounded und unbounded PCollection?
Was ist der Hauptunterschied zwischen einer bounded und unbounded PCollection?
Antwort
Eine bounded PCollection hat eine endliche, bekannte Größe (wie eine Datei oder Tabelle), während eine unbounded einen potenziell unendlichen Datenstrom (wie Streaming-Events) repräsentiert. Diese Unterscheidung beeinflusst, wie Beam Daten verarbeitet: bounded verwendet klassische Batch-Verarbeitung, während unbounded Windowing und Triggers benötigt, um den kontinuierlichen Fluss zu handhaben.
3Welche Rolle spielt die ParDo-Transformation in Apache Beam?
Welche Rolle spielt die ParDo-Transformation in Apache Beam?
Antwort
ParDo (Parallel Do) ist die flexibelste Transformation in Apache Beam. Sie wendet eine benutzerdefinierte Funktion (DoFn) parallel auf jedes Element einer PCollection an. ParDo kann null, ein oder mehrere Ausgabeelemente für jedes Eingabeelement erzeugen, was sie für Filtering, Mapping und Flat-Mapping geeignet macht.
Wie verwendet man Side Inputs in einer ParDo-Transformation?
Was ist der Unterschied zwischen GroupByKey und CoGroupByKey in Apache Beam?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
Data Lake - Architektur und Ingestion
BigQuery für Data Engineering
PostgreSQL - Administration
Data Modeling für Data Engineering
Fivetran & Airbyte - Daten-Ingestion
dbt - Grundlagen
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
ETL- / ELT- / ETLT-Patterns
Apache Airflow - Fortgeschritten
Airflow + dbt - Pipeline-Orchestrierung
PySpark - Verarbeitung im großen Maßstab
Google Pub/Sub - Daten-Streaming
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Moderne Data Architecture
Monitoring und Observability
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten