Question 1

Was ist ein Star Schema?

Accepted Answer

Ein Star Schema ist ein dimensionales Datenmodell, bei dem eine zentrale Fact Table von Dimension Tables umgeben ist. Die Fact Table enthält Metriken und Foreign Keys zu den Dimensionen, die wiederum beschreibende Attribute enthalten. Diese einfache, denormalisierte Struktur optimiert die Performance analytischer Queries durch Minimierung der Joins.

Question 2

Was ist der Unterschied zwischen einer Fact Table und einer Dimension Table?

Accepted Answer

Eine Fact Table enthält quantitative Maße (Metriken) und Foreign Keys zu den Dimensionen. Sie zeichnet Ereignisse oder Transaktionen auf. Eine Dimension Table enthält beschreibende Attribute (wer, was, wo, wann), die das Filtern und Gruppieren von Facts ermöglichen. Facts sind numerisch und aggregierbar, Dimensionen sind textuell und beschreibend.

Question 3

Was ist der Grain einer Fact Table?

Accepted Answer

Der Grain definiert die Detailebene einer Zeile in der Fact Table. Er beantwortet die Frage: Was repräsentiert eine Zeile genau? Zum Beispiel ein Verkauf pro Zeile, ein Verkauf pro Tag und Produkt oder ein Verkauf pro Stunde. Die Definition des Grain ist der erste Schritt im Dimensional Modeling, da sie bestimmt, welche Dimensionen benötigt werden und welche Aggregationsebene gespeichert wird.

Data Modeling für Data Engineering

Was ist ein Star Schema?

Antwort

Was ist der Unterschied zwischen einer Fact Table und einer Dimension Table?

Antwort

Was ist der Grain einer Fact Table?

Antwort

Was ist der Unterschied zwischen einem Star Schema und einem Snowflake Schema?

Was ist eine Conformed Dimension?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

Data Lake - Architektur und Ingestion

BigQuery für Data Engineering

PostgreSQL - Administration

Fivetran & Airbyte - Daten-Ingestion

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Apache Airflow - Fortgeschritten

Airflow + dbt - Pipeline-Orchestrierung

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Moderne Data Architecture

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview