Question 1

O que é um star schema?

Accepted Answer

Um star schema é um modelo de dados dimensional onde uma fact table central é cercada por dimension tables. A fact table contém as métricas e as foreign keys para as dimensões, que contêm os atributos descritivos. Essa estrutura simples e desnormalizada otimiza o desempenho das queries analíticas minimizando os joins.

Question 2

Qual é a diferença entre uma fact table e uma dimension table?

Accepted Answer

Uma fact table contém as medidas quantitativas (métricas) e as foreign keys para as dimensões. Ela registra eventos ou transações. Uma dimension table contém os atributos descritivos (quem, o quê, onde, quando) que permitem filtrar e agrupar os fatos. Os fatos são numéricos e agregáveis, as dimensões são textuais e descritivas.

Question 3

O que é o grain de uma fact table?

Accepted Answer

O grain define o nível de detalhe de uma linha na fact table. Ele responde à pergunta: o que exatamente uma linha representa? Por exemplo, uma venda por linha, uma venda por dia por produto, ou uma venda por hora. Definir o grain é o primeiro passo do dimensional modeling pois determina quais dimensões são necessárias e qual nível de agregação é armazenado.

Data Modeling para Data Engineering

O que é um star schema?

Resposta

Qual é a diferença entre uma fact table e uma dimension table?

Resposta

O que é o grain de uma fact table?

Resposta

Qual é a diferença entre um star schema e um snowflake schema?

O que é uma conformed dimension?

Outros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avançado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD e qualidade de código

Docker Compose

FastAPI - APIs de dados

SQL avançado para Data Engineering

Data Lake - Arquitetura e ingestão

BigQuery para Data Engineering

PostgreSQL - Administração

Fivetran & Airbyte - Ingestão de dados

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Recursos avançados

Padrões ETL / ELT / ETLT

Apache Airflow - Avançado

Airflow + dbt - Orquestração de pipelines

PySpark - Processamento em grande escala

Google Pub/Sub - Streaming de dados

Apache Beam & Dataflow

Kubernetes - Produção e escalabilidade

Terraform - Infrastructure as Code

Bancos de dados NoSQL

Arquitetura Data moderna

Monitoramento e observabilidade

IAM e segurança de dados

Domine Data Engineering para sua proxima entrevista