Question 1

¿Qué es un star schema?

Accepted Answer

Un star schema es un modelo de datos dimensional donde una fact table central está rodeada por dimension tables. La fact table contiene las métricas y las foreign keys hacia las dimensiones, que contienen los atributos descriptivos. Esta estructura simple y desnormalizada optimiza el rendimiento de las queries analíticas minimizando los joins.

Question 2

¿Cuál es la diferencia entre una fact table y una dimension table?

Accepted Answer

Una fact table contiene las medidas cuantitativas (métricas) y las foreign keys hacia las dimensiones. Registra eventos o transacciones. Una dimension table contiene los atributos descriptivos (quién, qué, dónde, cuándo) que permiten filtrar y agrupar los hechos. Los hechos son numéricos y agregables, las dimensiones son textuales y descriptivas.

Question 3

¿Qué es el grain de una fact table?

Accepted Answer

El grain define el nivel de detalle de una fila en la fact table. Responde a la pregunta: ¿qué representa exactamente una fila? Por ejemplo, una venta por fila, una venta por día y producto, o una venta por hora. Definir el grain es el primer paso del dimensional modeling ya que determina qué dimensiones son necesarias y qué nivel de agregación se almacena.

Data Modeling para Data Engineering

¿Qué es un star schema?

Respuesta

¿Cuál es la diferencia entre una fact table y una dimension table?

Respuesta

¿Qué es el grain de una fact table?

Respuesta

¿Cuál es la diferencia entre un star schema y un snowflake schema?

¿Qué es una conformed dimension?

Otros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avanzado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD y calidad de código

Docker Compose

FastAPI - APIs de datos

SQL avanzado para Data Engineering

Data Lake - Arquitectura e ingesta

BigQuery para Data Engineering

PostgreSQL - Administración

Fivetran & Airbyte - Ingesta de datos

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Funcionalidades avanzadas

Patrones ETL / ELT / ETLT

Apache Airflow - Avanzado

Airflow + dbt - Orquestación de pipelines

PySpark - Procesamiento a gran escala

Google Pub/Sub - Streaming de datos

Apache Beam & Dataflow

Kubernetes - Producción y escalado

Terraform - Infrastructure as Code

Bases de datos NoSQL

Arquitectura Data moderna

Monitoreo y observabilidad

IAM y seguridad de datos

Domina Data Engineering para tu próxima entrevista