Data Engineering

Data Lake - Architektur und Ingestion

Data Lake-Architektur, Zonen (raw/refined/curated), Formate (Parquet, Avro, JSON), Ingestion, Partitionierung

20 Interview-Fragen·
Mid-Level
1

Was ist ein Data Lake?

Antwort

Ein Data Lake ist ein zentrales Speichersystem, das Rohdaten in ihrem nativen Format speichern kann, ob strukturiert, semistrukturiert oder unstrukturiert. Im Gegensatz zum Data Warehouse, das ein Schema beim Schreiben erzwingt (schema-on-write), wendet ein Data Lake das Schema beim Lesen an (schema-on-read) und bietet maximale Flexibilität für Datenexploration und -analyse.

2

Was ist der Hauptunterschied zwischen schema-on-write und schema-on-read?

Antwort

Schema-on-write erzwingt Datenvalidierung und -transformation vor der Speicherung, gewährleistet eine konsistente Struktur, schränkt aber die Flexibilität ein. Schema-on-read speichert Daten in ihrem Rohformat und wendet das Schema nur beim Lesen an, bietet maximale Ingestion-Flexibilität, erfordert aber Verarbeitung beim Datenzugriff.

3

Was sind die drei klassischen Zonen eines Data Lake?

Antwort

Die Standard-Data-Lake-Architektur umfasst drei Zonen: Raw (Bronze) für untransformierte Rohdaten, Refined (Silver) für bereinigte und normalisierte Daten und Curated (Gold) für aggregierte Daten, die zum Verbrauch bereit sind. Diese geschichtete Organisation erleichtert Governance, Rückverfolgbarkeit und Datenqualität.

4

Was ist die Rolle der Raw (Bronze)-Zone in einem Data Lake?

5

Welches Dateiformat eignet sich am besten zum Speichern großer analytischer Daten in einem Data Lake?

+17 Interview-Fragen

Meistere Data Engineering für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten