
ETL- / ELT- / ETLT-Patterns
ETL vs. ELT vs. ETLT, Batch vs. Micro-Batch vs. Streaming, Idempotenz, Error Handling, Dead Letter Queues, Datenqualität, Lineage
1Was ist der Hauptunterschied zwischen ETL und ELT?
Was ist der Hauptunterschied zwischen ETL und ELT?
Antwort
Bei ETL (Extract-Transform-Load) werden die Daten auf einem Zwischenserver transformiert, bevor sie ins Ziel geladen werden. Bei ELT (Extract-Load-Transform) werden Rohdaten zunächst ins Ziel (typischerweise ein Cloud-Data-Warehouse) geladen und dann direkt dort mit dessen Rechenleistung transformiert. ELT ist mit Cloud-Data-Warehouses wie BigQuery, Snowflake oder Redshift populär geworden, die elastische Rechenleistung bieten.
2Was ist der Hauptvorteil des ELT-Ansatzes im Vergleich zum traditionellen ETL?
Was ist der Hauptvorteil des ELT-Ansatzes im Vergleich zum traditionellen ETL?
Antwort
Der ELT-Ansatz nutzt die elastische Rechenleistung moderner Cloud-Data-Warehouses (BigQuery, Snowflake, Redshift). Anstatt eine separate Transformationsinfrastruktur zu pflegen, die zum Engpass werden kann, nutzen Transformationen direkt die Scaling-Fähigkeiten des Data Warehouse. Dies reduziert die operationelle Komplexität und ermöglicht die Verarbeitung viel größerer Datenvolumen ohne manuelles Ressourcen-Provisioning.
3Was ist das ETLT-Pattern und wann ist es relevant?
Was ist das ETLT-Pattern und wann ist es relevant?
Antwort
ETLT kombiniert beide Ansätze: Eine erste leichte Transformation wird während der Extraktion durchgeführt (Bereinigung, Filterung, Anonymisierung), dann werden die Daten geladen und komplexere Transformationen werden im Data Warehouse angewendet. Dieses Pattern ist nützlich, wenn bestimmte Transformationen aus Compliance-Gründen (Maskierung sensibler Daten vor dem Laden), zur Volumenreduzierung (frühes Filtern) oder zur Normalisierung heterogener Quellformate vorgelagert erfolgen müssen.
Was ist Idempotenz im Kontext von Datenpipelines?
Wie implementiert man Idempotenz beim Laden von Daten in eine Tabelle?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
Data Lake - Architektur und Ingestion
BigQuery für Data Engineering
PostgreSQL - Administration
Data Modeling für Data Engineering
Fivetran & Airbyte - Daten-Ingestion
dbt - Grundlagen
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
Apache Airflow - Fortgeschritten
Airflow + dbt - Pipeline-Orchestrierung
PySpark - Verarbeitung im großen Maßstab
Google Pub/Sub - Daten-Streaming
Apache Beam & Dataflow
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Moderne Data Architecture
Monitoring und Observability
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten