Question 1

Welche Window Function weist jeder Zeile innerhalb einer Partition eine eindeutige fortlaufende Nummer zu?

Accepted Answer

ROW_NUMBER() weist jeder Zeile innerhalb einer Partition eine eindeutige fortlaufende Nummer ab 1 zu. Im Gegensatz zu RANK() und DENSE_RANK(), die gleichen Werten dieselbe Nummer zuweisen können, garantiert ROW_NUMBER() immer eindeutige Nummern, selbst bei identischen Werten in der ORDER BY-Klausel.

Question 2

Was ist der Hauptunterschied zwischen RANK() und DENSE_RANK()?

Accepted Answer

RANK() lässt Lücken in der Nummerierung nach gleichrangigen Werten. Wenn beispielsweise zwei Zeilen mit 1 bewertet sind, erhält die nächste den Rang 3. DENSE_RANK() lässt keine Lücken: Nach zwei Zeilen mit Rang 1 erhält die nächste Rang 2. Diese Unterscheidung ist wichtig für Ranking-Analysen, bei denen Lücken die Statistiken verfälschen können.

Question 3

Wie berechnet man eine kumulative Summe (Running Total) mit einer Window Function?

Accepted Answer

SUM() OVER mit ORDER BY ohne expliziten Frame verwendet standardmäßig ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW, was die Summe aller vorangehenden Zeilen bis einschließlich der aktuellen Zeile berechnet. Dies ist das Standardverhalten zum Erstellen kumulativer Summen in Zeitreihen- oder sequentiellen Analysen.

Fortgeschrittenes SQL für Data Engineering

Welche Window Function weist jeder Zeile innerhalb einer Partition eine eindeutige fortlaufende Nummer zu?

Antwort

Was ist der Hauptunterschied zwischen RANK() und DENSE_RANK()?

Antwort

Wie berechnet man eine kumulative Summe (Running Total) mit einer Window Function?

Antwort

Welche Rolle spielt die PARTITION BY-Klausel in einer Window Function?

Welche Funktion ermöglicht den Zugriff auf den Wert der vorherigen Zeile in einer Window Function?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Data Lake - Architektur und Ingestion

BigQuery für Data Engineering

PostgreSQL - Administration

Data Modeling für Data Engineering

Fivetran & Airbyte - Daten-Ingestion

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Apache Airflow - Fortgeschritten

Airflow + dbt - Pipeline-Orchestrierung

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Moderne Data Architecture

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview