Question 1

Was ist der Hauptunterschied zwischen ETL und ELT?

Accepted Answer

Bei ETL (Extract-Transform-Load) werden die Daten auf einem Zwischenserver transformiert, bevor sie ins Ziel geladen werden. Bei ELT (Extract-Load-Transform) werden Rohdaten zunächst ins Ziel (typischerweise ein Cloud-Data-Warehouse) geladen und dann direkt dort mit dessen Rechenleistung transformiert. ELT ist mit Cloud-Data-Warehouses wie BigQuery, Snowflake oder Redshift populär geworden, die elastische Rechenleistung bieten.

Question 2

Was ist der Hauptvorteil des ELT-Ansatzes im Vergleich zum traditionellen ETL?

Accepted Answer

Der ELT-Ansatz nutzt die elastische Rechenleistung moderner Cloud-Data-Warehouses (BigQuery, Snowflake, Redshift). Anstatt eine separate Transformationsinfrastruktur zu pflegen, die zum Engpass werden kann, nutzen Transformationen direkt die Scaling-Fähigkeiten des Data Warehouse. Dies reduziert die operationelle Komplexität und ermöglicht die Verarbeitung viel größerer Datenvolumen ohne manuelles Ressourcen-Provisioning.

Question 3

Was ist das ETLT-Pattern und wann ist es relevant?

Accepted Answer

ETLT kombiniert beide Ansätze: Eine erste leichte Transformation wird während der Extraktion durchgeführt (Bereinigung, Filterung, Anonymisierung), dann werden die Daten geladen und komplexere Transformationen werden im Data Warehouse angewendet. Dieses Pattern ist nützlich, wenn bestimmte Transformationen aus Compliance-Gründen (Maskierung sensibler Daten vor dem Laden), zur Volumenreduzierung (frühes Filtern) oder zur Normalisierung heterogener Quellformate vorgelagert erfolgen müssen.

ETL- / ELT- / ETLT-Patterns

Was ist der Hauptunterschied zwischen ETL und ELT?

Antwort

Was ist der Hauptvorteil des ELT-Ansatzes im Vergleich zum traditionellen ETL?

Antwort

Was ist das ETLT-Pattern und wann ist es relevant?

Antwort

Was ist Idempotenz im Kontext von Datenpipelines?

Wie implementiert man Idempotenz beim Laden von Daten in eine Tabelle?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

Data Lake - Architektur und Ingestion

BigQuery für Data Engineering

PostgreSQL - Administration

Data Modeling für Data Engineering

Fivetran & Airbyte - Daten-Ingestion

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

Apache Airflow - Fortgeschritten

Airflow + dbt - Pipeline-Orchestrierung

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Moderne Data Architecture

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview