Question 1

Was ist ein Data Lake?

Accepted Answer

Ein Data Lake ist ein zentrales Speichersystem, das Rohdaten in ihrem nativen Format speichern kann, ob strukturiert, semistrukturiert oder unstrukturiert. Im Gegensatz zum Data Warehouse, das ein Schema beim Schreiben erzwingt (schema-on-write), wendet ein Data Lake das Schema beim Lesen an (schema-on-read) und bietet maximale Flexibilität für Datenexploration und -analyse.

Question 2

Was ist der Hauptunterschied zwischen schema-on-write und schema-on-read?

Accepted Answer

Schema-on-write erzwingt Datenvalidierung und -transformation vor der Speicherung, gewährleistet eine konsistente Struktur, schränkt aber die Flexibilität ein. Schema-on-read speichert Daten in ihrem Rohformat und wendet das Schema nur beim Lesen an, bietet maximale Ingestion-Flexibilität, erfordert aber Verarbeitung beim Datenzugriff.

Question 3

Was sind die drei klassischen Zonen eines Data Lake?

Accepted Answer

Die Standard-Data-Lake-Architektur umfasst drei Zonen: Raw (Bronze) für untransformierte Rohdaten, Refined (Silver) für bereinigte und normalisierte Daten und Curated (Gold) für aggregierte Daten, die zum Verbrauch bereit sind. Diese geschichtete Organisation erleichtert Governance, Rückverfolgbarkeit und Datenqualität.

Data Lake - Architektur und Ingestion

Was ist ein Data Lake?

Antwort

Was ist der Hauptunterschied zwischen schema-on-write und schema-on-read?

Antwort

Was sind die drei klassischen Zonen eines Data Lake?

Antwort

Was ist die Rolle der Raw (Bronze)-Zone in einem Data Lake?

Welches Dateiformat eignet sich am besten zum Speichern großer analytischer Daten in einem Data Lake?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

BigQuery für Data Engineering

PostgreSQL - Administration

Data Modeling für Data Engineering

Fivetran & Airbyte - Daten-Ingestion

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Apache Airflow - Fortgeschritten

Airflow + dbt - Pipeline-Orchestrierung

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Moderne Data Architecture

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview