Data Analytics

dbt - Podstawy

Projekt dbt, models, sources, refs, tests, dokumentacja, materializations, seeds

20 pytań z rozmów·
Mid-Level
1

Czym jest dbt (data build tool)?

Odpowiedź

dbt to narzędzie do transformacji danych, które pozwala analitykom i inżynierom danych pisać transformacje w SQL lub Pythonie bezpośrednio w hurtowni danych. Stosuje podejście ELT (Extract, Load, Transform), w którym dane są najpierw ładowane do hurtowni, a następnie transformowane na miejscu, w przeciwieństwie do klasycznego ETL, który transformuje przed załadowaniem. dbt automatycznie zarządza zależnościami między modelami, testami i dokumentacją.

2

Jaka jest podstawowa struktura projektu dbt?

Odpowiedź

Projekt dbt jest zorganizowany wokół kluczowych folderów: models/ zawiera pliki SQL definiujące transformacje, seeds/ przechowuje pliki CSV ładowane jako tabele, tests/ przechowuje niestandardowe testy, macros/ zawiera funkcje Jinja wielokrotnego użytku, a snapshots/ przechowuje migawki stanu. Plik dbt_project.yml w katalogu głównym konfiguruje projekt (nazwa, wersja, domyślne materializations), podczas gdy profiles.yml definiuje połączenia z hurtownią.

3

Czym jest model w dbt?

Odpowiedź

Model dbt to plik SQL zawierający instrukcję SELECT, która definiuje transformację danych. Każdy model odpowiada plikowi .sql w folderze models/ i podczas wykonywania tworzy tabelę lub widok w hurtowni danych. Modele mogą odwoływać się do innych modeli za pomocą funkcji ref(), tworząc graf zależności (DAG), który dbt wykonuje we właściwej kolejności.

4

Jaki jest cel funkcji ref() w dbt?

5

Czym jest source w dbt i jak ją zadeklarować?

+17 pytań z rozmów

Opanuj Data Analytics na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo