
Data Modeling voor Data Engineering
Star schema, snowflake, Data Vault, normalisatie, SCD-types, grain, additieve metrics
1Wat is een star schema?
Wat is een star schema?
Antwoord
Een star schema is een dimensioneel datamodel waarbij een centrale fact table wordt omringd door dimension tables. De fact table bevat metrics en foreign keys naar de dimensies, die beschrijvende attributen bevatten. Deze eenvoudige, gedenormaliseerde structuur optimaliseert de prestaties van analytische queries door joins te minimaliseren.
2Wat is het verschil tussen een fact table en een dimension table?
Wat is het verschil tussen een fact table en een dimension table?
Antwoord
Een fact table bevat kwantitatieve metingen (metrics) en foreign keys naar de dimensies. Het registreert gebeurtenissen of transacties. Een dimension table bevat beschrijvende attributen (wie, wat, waar, wanneer) waarmee feiten kunnen worden gefilterd en gegroepeerd. Feiten zijn numeriek en aggregeerbaar, dimensies zijn tekstueel en beschrijvend.
3Wat is de grain van een fact table?
Wat is de grain van een fact table?
Antwoord
De grain definieert het detailniveau van een rij in de fact table. Het beantwoordt de vraag: wat vertegenwoordigt één rij precies? Bijvoorbeeld één verkoop per rij, één verkoop per dag per product, of één verkoop per uur. Het definiëren van de grain is de eerste stap in dimensional modeling omdat het bepaalt welke dimensies nodig zijn en welk aggregatieniveau wordt opgeslagen.
Wat is het verschil tussen een star schema en een snowflake schema?
Wat is een conformed dimension?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
Data Lake - Architectuur en ingestie
BigQuery voor Data Engineering
PostgreSQL - Administratie
Fivetran & Airbyte - Data-ingestie
dbt - Grondbeginselen
Apache Airflow - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
ETL- / ELT- / ETLT-patronen
Apache Airflow - Gevorderd
Airflow + dbt - Pipeline-orkestratie
PySpark - Grootschalige verwerking
Google Pub/Sub - Datastreaming
Apache Beam & Dataflow
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Moderne Data Architecture
Monitoring en observability
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis