
Data Modeling para Data Engineering
Star schema, snowflake, Data Vault, normalización, tipos de SCD, grain, métricas aditivas
1¿Qué es un star schema?
¿Qué es un star schema?
Respuesta
Un star schema es un modelo de datos dimensional donde una fact table central está rodeada por dimension tables. La fact table contiene las métricas y las foreign keys hacia las dimensiones, que contienen los atributos descriptivos. Esta estructura simple y desnormalizada optimiza el rendimiento de las queries analíticas minimizando los joins.
2¿Cuál es la diferencia entre una fact table y una dimension table?
¿Cuál es la diferencia entre una fact table y una dimension table?
Respuesta
Una fact table contiene las medidas cuantitativas (métricas) y las foreign keys hacia las dimensiones. Registra eventos o transacciones. Una dimension table contiene los atributos descriptivos (quién, qué, dónde, cuándo) que permiten filtrar y agrupar los hechos. Los hechos son numéricos y agregables, las dimensiones son textuales y descriptivas.
3¿Qué es el grain de una fact table?
¿Qué es el grain de una fact table?
Respuesta
El grain define el nivel de detalle de una fila en la fact table. Responde a la pregunta: ¿qué representa exactamente una fila? Por ejemplo, una venta por fila, una venta por día y producto, o una venta por hora. Definir el grain es el primer paso del dimensional modeling ya que determina qué dimensiones son necesarias y qué nivel de agregación se almacena.
¿Cuál es la diferencia entre un star schema y un snowflake schema?
¿Qué es una conformed dimension?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
BigQuery para Data Engineering
PostgreSQL - Administración
Fivetran & Airbyte - Ingesta de datos
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Apache Airflow - Avanzado
Airflow + dbt - Orquestación de pipelines
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis