Data Engineering

dbt - Podstawy

Projekt dbt, models, sources, refs, tests, dokumentacja, materializations (table, view, incremental), seeds

20 pytań z rozmów·
Mid-Level
1

Czym jest dbt (data build tool)?

Odpowiedź

dbt to narzędzie do transformacji danych, które pozwala na pisanie transformacji w SQL i wykonywanie ich w data warehouse. Stosuje zasady inżynierii oprogramowania (wersjonowanie, tests, dokumentacja) do pracy transformacji danych. dbt nie obsługuje ekstrakcji ani ładowania (E i L w ELT), tylko transformację.

2

Jaka jest podstawowa struktura projektu dbt?

Odpowiedź

Projekt dbt zawiera plik dbt_project.yml w katalogu głównym, który definiuje konfigurację projektu. Główne foldery to models (zawierający pliki SQL), tests dla niestandardowych testów, macros dla makr Jinja, seeds dla plików CSV oraz snapshots dla przechwytywania danych historycznych. Plik profiles.yml (zwykle poza projektem) definiuje połączenia z warehouse.

3

Jaka jest rola pliku profiles.yml w dbt?

Odpowiedź

Plik profiles.yml zawiera informacje o połączeniach z data warehouse (BigQuery, Snowflake, Redshift, PostgreSQL itp.). Zwykle jest przechowywany w folderze ~/.dbt/, a nie w projekcie, aby uniknąć wersjonowania wrażliwych credentials. Każdy profil może mieć wiele targets (dev, prod), co pozwala na łatwe przełączanie między środowiskami.

4

Czym jest model w dbt?

5

Jaka jest rola funkcji ref() w dbt?

+17 pytań z rozmów

Opanuj Data Engineering na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo