
Data Modeling per Data Engineering
Star schema, snowflake, Data Vault, normalizzazione, tipi di SCD, grain, metriche additive
1Cos'è uno star schema?
Cos'è uno star schema?
Risposta
Uno star schema è un modello di dati dimensionale in cui una fact table centrale è circondata da dimension table. La fact table contiene le metriche e le foreign key verso le dimensioni, che contengono gli attributi descrittivi. Questa struttura semplice e denormalizzata ottimizza le prestazioni delle query analitiche minimizzando le join.
2Qual è la differenza tra una fact table e una dimension table?
Qual è la differenza tra una fact table e una dimension table?
Risposta
Una fact table contiene misure quantitative (metriche) e foreign key verso le dimensioni. Registra eventi o transazioni. Una dimension table contiene attributi descrittivi (chi, cosa, dove, quando) che consentono di filtrare e raggruppare i fatti. I fatti sono numerici e aggregabili, le dimensioni sono testuali e descrittive.
3Cos'è il grain di una fact table?
Cos'è il grain di una fact table?
Risposta
Il grain definisce il livello di dettaglio di una riga nella fact table. Risponde alla domanda: cosa rappresenta esattamente una riga? Ad esempio, una vendita per riga, una vendita per giorno per prodotto o una vendita per ora. Definire il grain è il primo passo del dimensional modeling poiché determina quali dimensioni sono necessarie e quale livello di aggregazione viene memorizzato.
Qual è la differenza tra uno star schema e uno snowflake schema?
Cos'è una conformed dimension?
+17 domande da colloquio
Altri argomenti di colloquio Data Engineering
Linux & Shell - Fondamenti
Git & GitHub - Fondamenti
Python avanzato per Data Engineering
Docker - Fondamenti
Google Cloud Platform - Fondamenti
CI/CD e qualità del codice
Docker Compose
FastAPI - API per dati
SQL avanzato per il Data Engineering
Data Lake - Architettura e ingestione
BigQuery per il Data Engineering
PostgreSQL - Amministrazione
Fivetran & Airbyte - Ingestione dati
dbt - Fondamenti
Apache Airflow - Fondamenti
Kubernetes - Fondamenti
dbt - Funzionalità avanzate
Pattern ETL / ELT / ETLT
Apache Airflow - Avanzato
Airflow + dbt - Orchestrazione delle pipeline
PySpark - Elaborazione su larga scala
Google Pub/Sub - Streaming di dati
Apache Beam & Dataflow
Kubernetes - Produzione e scaling
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture moderna
Monitoraggio e osservabilità
IAM e sicurezza dei dati
Padroneggia Data Engineering per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis