
Data Lake - Architektur und Ingestion
Data Lake-Architektur, Zonen (raw/refined/curated), Formate (Parquet, Avro, JSON), Ingestion, Partitionierung
1Was ist ein Data Lake?
Was ist ein Data Lake?
Antwort
Ein Data Lake ist ein zentrales Speichersystem, das Rohdaten in ihrem nativen Format speichern kann, ob strukturiert, semistrukturiert oder unstrukturiert. Im Gegensatz zum Data Warehouse, das ein Schema beim Schreiben erzwingt (schema-on-write), wendet ein Data Lake das Schema beim Lesen an (schema-on-read) und bietet maximale Flexibilität für Datenexploration und -analyse.
2Was ist der Hauptunterschied zwischen schema-on-write und schema-on-read?
Was ist der Hauptunterschied zwischen schema-on-write und schema-on-read?
Antwort
Schema-on-write erzwingt Datenvalidierung und -transformation vor der Speicherung, gewährleistet eine konsistente Struktur, schränkt aber die Flexibilität ein. Schema-on-read speichert Daten in ihrem Rohformat und wendet das Schema nur beim Lesen an, bietet maximale Ingestion-Flexibilität, erfordert aber Verarbeitung beim Datenzugriff.
3Was sind die drei klassischen Zonen eines Data Lake?
Was sind die drei klassischen Zonen eines Data Lake?
Antwort
Die Standard-Data-Lake-Architektur umfasst drei Zonen: Raw (Bronze) für untransformierte Rohdaten, Refined (Silver) für bereinigte und normalisierte Daten und Curated (Gold) für aggregierte Daten, die zum Verbrauch bereit sind. Diese geschichtete Organisation erleichtert Governance, Rückverfolgbarkeit und Datenqualität.
Was ist die Rolle der Raw (Bronze)-Zone in einem Data Lake?
Welches Dateiformat eignet sich am besten zum Speichern großer analytischer Daten in einem Data Lake?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
BigQuery für Data Engineering
PostgreSQL - Administration
Data Modeling für Data Engineering
Fivetran & Airbyte - Daten-Ingestion
dbt - Grundlagen
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
ETL- / ELT- / ETLT-Patterns
Apache Airflow - Fortgeschritten
Airflow + dbt - Pipeline-Orchestrierung
PySpark - Verarbeitung im großen Maßstab
Google Pub/Sub - Daten-Streaming
Apache Beam & Dataflow
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Moderne Data Architecture
Monitoring und Observability
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten