Question 1

Cos'è uno star schema?

Accepted Answer

Uno star schema è un modello di dati dimensionale in cui una fact table centrale è circondata da dimension table. La fact table contiene le metriche e le foreign key verso le dimensioni, che contengono gli attributi descrittivi. Questa struttura semplice e denormalizzata ottimizza le prestazioni delle query analitiche minimizzando le join.

Question 2

Qual è la differenza tra una fact table e una dimension table?

Accepted Answer

Una fact table contiene misure quantitative (metriche) e foreign key verso le dimensioni. Registra eventi o transazioni. Una dimension table contiene attributi descrittivi (chi, cosa, dove, quando) che consentono di filtrare e raggruppare i fatti. I fatti sono numerici e aggregabili, le dimensioni sono testuali e descrittive.

Question 3

Cos'è il grain di una fact table?

Accepted Answer

Il grain definisce il livello di dettaglio di una riga nella fact table. Risponde alla domanda: cosa rappresenta esattamente una riga? Ad esempio, una vendita per riga, una vendita per giorno per prodotto o una vendita per ora. Definire il grain è il primo passo del dimensional modeling poiché determina quali dimensioni sono necessarie e quale livello di aggregazione viene memorizzato.

Data Modeling per Data Engineering

Cos'è uno star schema?

Risposta

Qual è la differenza tra una fact table e una dimension table?

Risposta

Cos'è il grain di una fact table?

Risposta

Qual è la differenza tra uno star schema e uno snowflake schema?

Cos'è una conformed dimension?

Altri argomenti di colloquio Data Engineering

Linux & Shell - Fondamenti

Git & GitHub - Fondamenti

Python avanzato per Data Engineering

Docker - Fondamenti

Google Cloud Platform - Fondamenti

CI/CD e qualità del codice

Docker Compose

FastAPI - API per dati

SQL avanzato per il Data Engineering

Data Lake - Architettura e ingestione

BigQuery per il Data Engineering

PostgreSQL - Amministrazione

Fivetran & Airbyte - Ingestione dati

dbt - Fondamenti

Apache Airflow - Fondamenti

Kubernetes - Fondamenti

dbt - Funzionalità avanzate

Pattern ETL / ELT / ETLT

Apache Airflow - Avanzato

Airflow + dbt - Orchestrazione delle pipeline

PySpark - Elaborazione su larga scala

Google Pub/Sub - Streaming di dati

Apache Beam & Dataflow

Kubernetes - Produzione e scaling

Terraform - Infrastructure as Code

Database NoSQL

Data Architecture moderna

Monitoraggio e osservabilità

IAM e sicurezza dei dati

Padroneggia Data Engineering per il tuo prossimo colloquio