
Data Modeling für Data Engineering
Star Schema, Snowflake, Data Vault, Normalisierung, SCD-Typen, Grain, additive Metriken
1Was ist ein Star Schema?
Was ist ein Star Schema?
Antwort
Ein Star Schema ist ein dimensionales Datenmodell, bei dem eine zentrale Fact Table von Dimension Tables umgeben ist. Die Fact Table enthält Metriken und Foreign Keys zu den Dimensionen, die wiederum beschreibende Attribute enthalten. Diese einfache, denormalisierte Struktur optimiert die Performance analytischer Queries durch Minimierung der Joins.
2Was ist der Unterschied zwischen einer Fact Table und einer Dimension Table?
Was ist der Unterschied zwischen einer Fact Table und einer Dimension Table?
Antwort
Eine Fact Table enthält quantitative Maße (Metriken) und Foreign Keys zu den Dimensionen. Sie zeichnet Ereignisse oder Transaktionen auf. Eine Dimension Table enthält beschreibende Attribute (wer, was, wo, wann), die das Filtern und Gruppieren von Facts ermöglichen. Facts sind numerisch und aggregierbar, Dimensionen sind textuell und beschreibend.
3Was ist der Grain einer Fact Table?
Was ist der Grain einer Fact Table?
Antwort
Der Grain definiert die Detailebene einer Zeile in der Fact Table. Er beantwortet die Frage: Was repräsentiert eine Zeile genau? Zum Beispiel ein Verkauf pro Zeile, ein Verkauf pro Tag und Produkt oder ein Verkauf pro Stunde. Die Definition des Grain ist der erste Schritt im Dimensional Modeling, da sie bestimmt, welche Dimensionen benötigt werden und welche Aggregationsebene gespeichert wird.
Was ist der Unterschied zwischen einem Star Schema und einem Snowflake Schema?
Was ist eine Conformed Dimension?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
Data Lake - Architektur und Ingestion
BigQuery für Data Engineering
PostgreSQL - Administration
Fivetran & Airbyte - Daten-Ingestion
dbt - Grundlagen
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
ETL- / ELT- / ETLT-Patterns
Apache Airflow - Fortgeschritten
Airflow + dbt - Pipeline-Orchestrierung
PySpark - Verarbeitung im großen Maßstab
Google Pub/Sub - Daten-Streaming
Apache Beam & Dataflow
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Moderne Data Architecture
Monitoring und Observability
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten