Question 1

Wat is een star schema?

Accepted Answer

Een star schema is een dimensioneel datamodel waarbij een centrale fact table wordt omringd door dimension tables. De fact table bevat metrics en foreign keys naar de dimensies, die beschrijvende attributen bevatten. Deze eenvoudige, gedenormaliseerde structuur optimaliseert de prestaties van analytische queries door joins te minimaliseren.

Question 2

Wat is het verschil tussen een fact table en een dimension table?

Accepted Answer

Een fact table bevat kwantitatieve metingen (metrics) en foreign keys naar de dimensies. Het registreert gebeurtenissen of transacties. Een dimension table bevat beschrijvende attributen (wie, wat, waar, wanneer) waarmee feiten kunnen worden gefilterd en gegroepeerd. Feiten zijn numeriek en aggregeerbaar, dimensies zijn tekstueel en beschrijvend.

Question 3

Wat is de grain van een fact table?

Accepted Answer

De grain definieert het detailniveau van een rij in de fact table. Het beantwoordt de vraag: wat vertegenwoordigt één rij precies? Bijvoorbeeld één verkoop per rij, één verkoop per dag per product, of één verkoop per uur. Het definiëren van de grain is de eerste stap in dimensional modeling omdat het bepaalt welke dimensies nodig zijn en welk aggregatieniveau wordt opgeslagen.

Data Modeling voor Data Engineering

Wat is een star schema?

Antwoord

Wat is het verschil tussen een fact table en een dimension table?

Antwoord

Wat is de grain van een fact table?

Antwoord

Wat is het verschil tussen een star schema en een snowflake schema?

Wat is een conformed dimension?

Andere Data Engineering-sollicitatieonderwerpen

Linux & Shell - Grondbeginselen

Git & GitHub - Grondbeginselen

Geavanceerde Python voor Data Engineering

Docker - Basisbeginselen

Google Cloud Platform - Fundamenten

CI/CD en codekwaliteit

Docker Compose

FastAPI - Data-API's

Geavanceerde SQL voor Data Engineering

Data Lake - Architectuur en ingestie

BigQuery voor Data Engineering

PostgreSQL - Administratie

Fivetran & Airbyte - Data-ingestie

dbt - Grondbeginselen

Apache Airflow - Grondbeginselen

Kubernetes - Fundamenten

dbt - Geavanceerde functies

ETL- / ELT- / ETLT-patronen

Apache Airflow - Gevorderd

Airflow + dbt - Pipeline-orkestratie

PySpark - Grootschalige verwerking

Google Pub/Sub - Datastreaming

Apache Beam & Dataflow

Kubernetes - Productie en scaling

Terraform - Infrastructure as Code

NoSQL-databases

Moderne Data Architecture

Monitoring en observability

IAM en gegevensbeveiliging

Beheers Data Engineering voor je volgende gesprek