Question 1

Welke window function kent een uniek volgnummer toe aan elke rij binnen een partitie?

Accepted Answer

ROW_NUMBER() kent een uniek volgnummer toe aan elke rij binnen een partitie, beginnend bij 1. In tegenstelling tot RANK() en DENSE_RANK() die hetzelfde nummer aan gelijke waarden kunnen toekennen, garandeert ROW_NUMBER() altijd unieke nummers, zelfs voor identieke waarden in de ORDER BY-clausule.

Question 2

Wat is het belangrijkste verschil tussen RANK() en DENSE_RANK()?

Accepted Answer

RANK() laat gaten in de nummering na gelijke waarden. Als bijvoorbeeld twee rijen rang 1 hebben, krijgt de volgende rang 3. DENSE_RANK() laat geen gaten: na twee rijen met rang 1 krijgt de volgende rang 2. Dit onderscheid is belangrijk voor rangschikkingsanalyses waarbij gaten de statistieken kunnen vertekenen.

Question 3

Hoe bereken je een lopend totaal (running total) met een window function?

Accepted Answer

SUM() OVER met ORDER BY zonder expliciet frame gebruikt standaard ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW, wat de som berekent van alle voorgaande rijen tot en met de huidige rij. Dit is het standaardgedrag voor het maken van lopende totalen in tijdreeks- of sequentiële analyses.

Geavanceerde SQL voor Data Engineering

Welke window function kent een uniek volgnummer toe aan elke rij binnen een partitie?

Antwoord

Wat is het belangrijkste verschil tussen RANK() en DENSE_RANK()?

Antwoord

Hoe bereken je een lopend totaal (running total) met een window function?

Antwoord

Wat is de rol van de PARTITION BY-clausule in een window function?

Welke functie geeft toegang tot de waarde van de vorige rij in een window function?

Andere Data Engineering-sollicitatieonderwerpen

Linux & Shell - Grondbeginselen

Git & GitHub - Grondbeginselen

Geavanceerde Python voor Data Engineering

Docker - Basisbeginselen

Google Cloud Platform - Fundamenten

CI/CD en codekwaliteit

Docker Compose

FastAPI - Data-API's

Data Lake - Architectuur en ingestie

BigQuery voor Data Engineering

PostgreSQL - Administratie

Data Modeling voor Data Engineering

Fivetran & Airbyte - Data-ingestie

dbt - Grondbeginselen

Apache Airflow - Grondbeginselen

Kubernetes - Fundamenten

dbt - Geavanceerde functies

ETL- / ELT- / ETLT-patronen

Apache Airflow - Gevorderd

Airflow + dbt - Pipeline-orkestratie

PySpark - Grootschalige verwerking

Google Pub/Sub - Datastreaming

Apache Beam & Dataflow

Kubernetes - Productie en scaling

Terraform - Infrastructure as Code

NoSQL-databases

Moderne Data Architecture

Monitoring en observability

IAM en gegevensbeveiliging

Beheers Data Engineering voor je volgende gesprek