
Data Modeling dla Data Engineering
Star schema, snowflake, Data Vault, normalizacja, typy SCD, grain, metryki addytywne
1Czym jest star schema?
Czym jest star schema?
Odpowiedź
Star schema to wymiarowy model danych, w którym centralna fact table jest otoczona przez dimension tables. Fact table zawiera metryki i foreign keys do wymiarów, które przechowują atrybuty opisowe. Ta prosta, zdenormalizowana struktura optymalizuje wydajność zapytań analitycznych poprzez minimalizację złączeń.
2Jaka jest różnica między fact table a dimension table?
Jaka jest różnica między fact table a dimension table?
Odpowiedź
Fact table zawiera ilościowe miary (metryki) i foreign keys do wymiarów. Rejestruje zdarzenia lub transakcje. Dimension table zawiera atrybuty opisowe (kto, co, gdzie, kiedy) umożliwiające filtrowanie i grupowanie faktów. Fakty są liczbowe i agregowalne, wymiary są tekstowe i opisowe.
3Czym jest grain fact table?
Czym jest grain fact table?
Odpowiedź
Grain definiuje poziom szczegółowości wiersza w fact table. Odpowiada na pytanie: co dokładnie reprezentuje jeden wiersz? Na przykład, jedna sprzedaż na wiersz, jedna sprzedaż na dzień na produkt lub jedna sprzedaż na godzinę. Zdefiniowanie grain jest pierwszym krokiem modelowania wymiarowego, ponieważ określa, które wymiary są potrzebne i jaki poziom agregacji jest przechowywany.
Jaka jest różnica między star schema a snowflake schema?
Czym jest conformed dimension?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Engineering
Linux & Shell - Podstawy
Git & GitHub - Podstawy
Zaawansowany Python dla Data Engineering
Docker - Podstawy
Google Cloud Platform - Podstawy
CI/CD i jakość kodu
Docker Compose
FastAPI - API danych
Zaawansowany SQL dla Data Engineering
Data Lake - Architektura i wprowadzanie danych
BigQuery dla Data Engineering
PostgreSQL - Administracja
Fivetran & Airbyte - Pozyskiwanie danych
dbt - Podstawy
Apache Airflow - Podstawy
Kubernetes - Podstawy
dbt - Zaawansowane funkcje
Wzorce ETL / ELT / ETLT
Apache Airflow - Zaawansowany
Airflow + dbt - Orkiestracja pipeline'ów
PySpark - Przetwarzanie na dużą skalę
Google Pub/Sub - Streaming danych
Apache Beam & Dataflow
Kubernetes - Produkcja i skalowanie
Terraform - Infrastructure as Code
Bazy danych NoSQL
Nowoczesna Data Architecture
Monitorowanie i obserwowalność
IAM i bezpieczeństwo danych
Opanuj Data Engineering na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo