
dbt - Podstawy
Projekt dbt, models, sources, refs, tests, dokumentacja, materializations (table, view, incremental), seeds
1Czym jest dbt (data build tool)?
Czym jest dbt (data build tool)?
Odpowiedź
dbt to narzędzie do transformacji danych, które pozwala na pisanie transformacji w SQL i wykonywanie ich w data warehouse. Stosuje zasady inżynierii oprogramowania (wersjonowanie, tests, dokumentacja) do pracy transformacji danych. dbt nie obsługuje ekstrakcji ani ładowania (E i L w ELT), tylko transformację.
2Jaka jest podstawowa struktura projektu dbt?
Jaka jest podstawowa struktura projektu dbt?
Odpowiedź
Projekt dbt zawiera plik dbt_project.yml w katalogu głównym, który definiuje konfigurację projektu. Główne foldery to models (zawierający pliki SQL), tests dla niestandardowych testów, macros dla makr Jinja, seeds dla plików CSV oraz snapshots dla przechwytywania danych historycznych. Plik profiles.yml (zwykle poza projektem) definiuje połączenia z warehouse.
3Jaka jest rola pliku profiles.yml w dbt?
Jaka jest rola pliku profiles.yml w dbt?
Odpowiedź
Plik profiles.yml zawiera informacje o połączeniach z data warehouse (BigQuery, Snowflake, Redshift, PostgreSQL itp.). Zwykle jest przechowywany w folderze ~/.dbt/, a nie w projekcie, aby uniknąć wersjonowania wrażliwych credentials. Każdy profil może mieć wiele targets (dev, prod), co pozwala na łatwe przełączanie między środowiskami.
Czym jest model w dbt?
Jaka jest rola funkcji ref() w dbt?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Engineering
Linux & Shell - Podstawy
Git & GitHub - Podstawy
Zaawansowany Python dla Data Engineering
Docker - Podstawy
Google Cloud Platform - Podstawy
CI/CD i jakość kodu
Docker Compose
FastAPI - API danych
Zaawansowany SQL dla Data Engineering
Data Lake - Architektura i wprowadzanie danych
BigQuery dla Data Engineering
PostgreSQL - Administracja
Data Modeling dla Data Engineering
Fivetran & Airbyte - Pozyskiwanie danych
Apache Airflow - Podstawy
Kubernetes - Podstawy
dbt - Zaawansowane funkcje
Wzorce ETL / ELT / ETLT
Apache Airflow - Zaawansowany
Airflow + dbt - Orkiestracja pipeline'ów
PySpark - Przetwarzanie na dużą skalę
Google Pub/Sub - Streaming danych
Apache Beam & Dataflow
Kubernetes - Produkcja i skalowanie
Terraform - Infrastructure as Code
Bazy danych NoSQL
Nowoczesna Data Architecture
Monitorowanie i obserwowalność
IAM i bezpieczeństwo danych
Opanuj Data Engineering na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo