Question 1

Czym jest star schema?

Accepted Answer

Star schema to wymiarowy model danych, w którym centralna fact table jest otoczona przez dimension tables. Fact table zawiera metryki i foreign keys do wymiarów, które przechowują atrybuty opisowe. Ta prosta, zdenormalizowana struktura optymalizuje wydajność zapytań analitycznych poprzez minimalizację złączeń.

Question 2

Jaka jest różnica między fact table a dimension table?

Accepted Answer

Fact table zawiera ilościowe miary (metryki) i foreign keys do wymiarów. Rejestruje zdarzenia lub transakcje. Dimension table zawiera atrybuty opisowe (kto, co, gdzie, kiedy) umożliwiające filtrowanie i grupowanie faktów. Fakty są liczbowe i agregowalne, wymiary są tekstowe i opisowe.

Question 3

Czym jest grain fact table?

Accepted Answer

Grain definiuje poziom szczegółowości wiersza w fact table. Odpowiada na pytanie: co dokładnie reprezentuje jeden wiersz? Na przykład, jedna sprzedaż na wiersz, jedna sprzedaż na dzień na produkt lub jedna sprzedaż na godzinę. Zdefiniowanie grain jest pierwszym krokiem modelowania wymiarowego, ponieważ określa, które wymiary są potrzebne i jaki poziom agregacji jest przechowywany.

Data Modeling dla Data Engineering

Czym jest star schema?

Odpowiedź

Jaka jest różnica między fact table a dimension table?

Odpowiedź

Czym jest grain fact table?

Odpowiedź

Jaka jest różnica między star schema a snowflake schema?

Czym jest conformed dimension?

Inne tematy rekrutacyjne Data Engineering

Linux & Shell - Podstawy

Git & GitHub - Podstawy

Zaawansowany Python dla Data Engineering

Docker - Podstawy

Google Cloud Platform - Podstawy

CI/CD i jakość kodu

Docker Compose

FastAPI - API danych

Zaawansowany SQL dla Data Engineering

Data Lake - Architektura i wprowadzanie danych

BigQuery dla Data Engineering

PostgreSQL - Administracja

Fivetran & Airbyte - Pozyskiwanie danych

dbt - Podstawy

Apache Airflow - Podstawy

Kubernetes - Podstawy

dbt - Zaawansowane funkcje

Wzorce ETL / ELT / ETLT

Apache Airflow - Zaawansowany

Airflow + dbt - Orkiestracja pipeline'ów

PySpark - Przetwarzanie na dużą skalę

Google Pub/Sub - Streaming danych

Apache Beam & Dataflow

Kubernetes - Produkcja i skalowanie

Terraform - Infrastructure as Code

Bazy danych NoSQL

Nowoczesna Data Architecture

Monitorowanie i obserwowalność

IAM i bezpieczeństwo danych

Opanuj Data Engineering na następną rozmowę