
Moderne Data Architecture
Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, Schema Registry, ADR, Governance, Data Catalog, Lineage
1Was ist der grundlegende Unterschied zwischen einem Data Lake und einem Data Warehouse?
Was ist der grundlegende Unterschied zwischen einem Data Lake und einem Data Warehouse?
Antwort
Ein Data Lake speichert Daten in ihrem nativen (rohen) Format mit Schema-Anwendung zur Lesezeit (schema-on-read) und ermöglicht große Flexibilität für die Exploration. Ein Data Warehouse erzwingt ein strukturiertes Schema zur Schreibzeit (schema-on-write) mit transformierten und für Analysen optimierten Daten. Data Lakes bevorzugen Flexibilität und kostengünstigen Massenspeicher, während Data Warehouses Abfrageleistung und Datenqualität bevorzugen.
2Was ist der Hauptvorteil der Lakehouse-Architektur gegenüber getrennten Data-Lake- und Data-Warehouse-Architekturen?
Was ist der Hauptvorteil der Lakehouse-Architektur gegenüber getrennten Data-Lake- und Data-Warehouse-Architekturen?
Antwort
Die Lakehouse-Architektur kombiniert das Beste aus beiden Welten: den flexiblen und kostengünstigen Speicher des Data Lakes mit den ACID-Fähigkeiten, der Abfrageleistung und der Governance des Data Warehouses. Dies eliminiert Datenduplizierung zwischen Systemen, reduziert Synchronisationskosten und -komplexität und ermöglicht BI- und ML-Workloads auf derselben Plattform mit offenen Formaten wie Delta Lake, Iceberg oder Hudi.
3Welches offene Tabellenformat ermöglicht ACID-Transaktionen auf einem Data Lake?
Welches offene Tabellenformat ermöglicht ACID-Transaktionen auf einem Data Lake?
Antwort
Delta Lake, Apache Iceberg und Apache Hudi sind die drei wichtigsten offenen Tabellenformate, die ACID-Transaktionen auf einem Data Lake ermöglichen. Delta Lake, entwickelt von Databricks, verwendet ein Transaction Log, um Atomarität und Konsistenz zu garantieren. Iceberg, erstellt von Netflix, bietet erweiterte Partitionsverwaltung und Schema Evolution. Hudi, entwickelt von Uber, glänzt bei Upsert- und CDC-Szenarien. Diese Formate verwandeln einfachen Objektspeicher in ein Lakehouse mit transaktionalen Garantien.
Was ist das grundlegende Prinzip von Data Mesh?
Was ist ein Data Contract im Kontext von Data Mesh?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
Data Lake - Architektur und Ingestion
BigQuery für Data Engineering
PostgreSQL - Administration
Data Modeling für Data Engineering
Fivetran & Airbyte - Daten-Ingestion
dbt - Grundlagen
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
ETL- / ELT- / ETLT-Patterns
Apache Airflow - Fortgeschritten
Airflow + dbt - Pipeline-Orchestrierung
PySpark - Verarbeitung im großen Maßstab
Google Pub/Sub - Daten-Streaming
Apache Beam & Dataflow
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Monitoring und Observability
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten