
Data Modeling para Data Engineering
Star schema, snowflake, Data Vault, normalização, tipos de SCD, grain, métricas aditivas
1O que é um star schema?
O que é um star schema?
Resposta
Um star schema é um modelo de dados dimensional onde uma fact table central é cercada por dimension tables. A fact table contém as métricas e as foreign keys para as dimensões, que contêm os atributos descritivos. Essa estrutura simples e desnormalizada otimiza o desempenho das queries analíticas minimizando os joins.
2Qual é a diferença entre uma fact table e uma dimension table?
Qual é a diferença entre uma fact table e uma dimension table?
Resposta
Uma fact table contém as medidas quantitativas (métricas) e as foreign keys para as dimensões. Ela registra eventos ou transações. Uma dimension table contém os atributos descritivos (quem, o quê, onde, quando) que permitem filtrar e agrupar os fatos. Os fatos são numéricos e agregáveis, as dimensões são textuais e descritivas.
3O que é o grain de uma fact table?
O que é o grain de uma fact table?
Resposta
O grain define o nível de detalhe de uma linha na fact table. Ele responde à pergunta: o que exatamente uma linha representa? Por exemplo, uma venda por linha, uma venda por dia por produto, ou uma venda por hora. Definir o grain é o primeiro passo do dimensional modeling pois determina quais dimensões são necessárias e qual nível de agregação é armazenado.
Qual é a diferença entre um star schema e um snowflake schema?
O que é uma conformed dimension?
+17 perguntas de entrevista
Outros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avançado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD e qualidade de código
Docker Compose
FastAPI - APIs de dados
SQL avançado para Data Engineering
Data Lake - Arquitetura e ingestão
BigQuery para Data Engineering
PostgreSQL - Administração
Fivetran & Airbyte - Ingestão de dados
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Recursos avançados
Padrões ETL / ELT / ETLT
Apache Airflow - Avançado
Airflow + dbt - Orquestração de pipelines
PySpark - Processamento em grande escala
Google Pub/Sub - Streaming de dados
Apache Beam & Dataflow
Kubernetes - Produção e escalabilidade
Terraform - Infrastructure as Code
Bancos de dados NoSQL
Arquitetura Data moderna
Monitoramento e observabilidade
IAM e segurança de dados
Domine Data Engineering para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis