Question 1

Was ist der grundlegende Unterschied zwischen einem Data Lake und einem Data Warehouse?

Accepted Answer

Ein Data Lake speichert Daten in ihrem nativen (rohen) Format mit Schema-Anwendung zur Lesezeit (schema-on-read) und ermöglicht große Flexibilität für die Exploration. Ein Data Warehouse erzwingt ein strukturiertes Schema zur Schreibzeit (schema-on-write) mit transformierten und für Analysen optimierten Daten. Data Lakes bevorzugen Flexibilität und kostengünstigen Massenspeicher, während Data Warehouses Abfrageleistung und Datenqualität bevorzugen.

Question 2

Was ist der Hauptvorteil der Lakehouse-Architektur gegenüber getrennten Data-Lake- und Data-Warehouse-Architekturen?

Accepted Answer

Die Lakehouse-Architektur kombiniert das Beste aus beiden Welten: den flexiblen und kostengünstigen Speicher des Data Lakes mit den ACID-Fähigkeiten, der Abfrageleistung und der Governance des Data Warehouses. Dies eliminiert Datenduplizierung zwischen Systemen, reduziert Synchronisationskosten und -komplexität und ermöglicht BI- und ML-Workloads auf derselben Plattform mit offenen Formaten wie Delta Lake, Iceberg oder Hudi.

Question 3

Welches offene Tabellenformat ermöglicht ACID-Transaktionen auf einem Data Lake?

Accepted Answer

Delta Lake, Apache Iceberg und Apache Hudi sind die drei wichtigsten offenen Tabellenformate, die ACID-Transaktionen auf einem Data Lake ermöglichen. Delta Lake, entwickelt von Databricks, verwendet ein Transaction Log, um Atomarität und Konsistenz zu garantieren. Iceberg, erstellt von Netflix, bietet erweiterte Partitionsverwaltung und Schema Evolution. Hudi, entwickelt von Uber, glänzt bei Upsert- und CDC-Szenarien. Diese Formate verwandeln einfachen Objektspeicher in ein Lakehouse mit transaktionalen Garantien.

Moderne Data Architecture

Was ist der grundlegende Unterschied zwischen einem Data Lake und einem Data Warehouse?

Antwort

Was ist der Hauptvorteil der Lakehouse-Architektur gegenüber getrennten Data-Lake- und Data-Warehouse-Architekturen?

Antwort

Welches offene Tabellenformat ermöglicht ACID-Transaktionen auf einem Data Lake?

Antwort

Was ist das grundlegende Prinzip von Data Mesh?

Was ist ein Data Contract im Kontext von Data Mesh?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

Data Lake - Architektur und Ingestion

BigQuery für Data Engineering

PostgreSQL - Administration

Data Modeling für Data Engineering

Fivetran & Airbyte - Daten-Ingestion

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Apache Airflow - Fortgeschritten

Airflow + dbt - Pipeline-Orchestrierung

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview