Question 1

Czym jest dbt (data build tool)?

Accepted Answer

dbt to narzędzie do transformacji danych, które pozwala na pisanie transformacji w SQL i wykonywanie ich w data warehouse. Stosuje zasady inżynierii oprogramowania (wersjonowanie, tests, dokumentacja) do pracy transformacji danych. dbt nie obsługuje ekstrakcji ani ładowania (E i L w ELT), tylko transformację.

Question 2

Jaka jest podstawowa struktura projektu dbt?

Accepted Answer

Projekt dbt zawiera plik dbt_project.yml w katalogu głównym, który definiuje konfigurację projektu. Główne foldery to models (zawierający pliki SQL), tests dla niestandardowych testów, macros dla makr Jinja, seeds dla plików CSV oraz snapshots dla przechwytywania danych historycznych. Plik profiles.yml (zwykle poza projektem) definiuje połączenia z warehouse.

Question 3

Jaka jest rola pliku profiles.yml w dbt?

Accepted Answer

Plik profiles.yml zawiera informacje o połączeniach z data warehouse (BigQuery, Snowflake, Redshift, PostgreSQL itp.). Zwykle jest przechowywany w folderze ~/.dbt/, a nie w projekcie, aby uniknąć wersjonowania wrażliwych credentials. Każdy profil może mieć wiele targets (dev, prod), co pozwala na łatwe przełączanie między środowiskami.

dbt - Podstawy

Czym jest dbt (data build tool)?

Odpowiedź

Jaka jest podstawowa struktura projektu dbt?

Odpowiedź

Jaka jest rola pliku profiles.yml w dbt?

Odpowiedź

Czym jest model w dbt?

Jaka jest rola funkcji ref() w dbt?

Inne tematy rekrutacyjne Data Engineering

Linux & Shell - Podstawy

Git & GitHub - Podstawy

Zaawansowany Python dla Data Engineering

Docker - Podstawy

Google Cloud Platform - Podstawy

CI/CD i jakość kodu

Docker Compose

FastAPI - API danych

Zaawansowany SQL dla Data Engineering

Data Lake - Architektura i wprowadzanie danych

BigQuery dla Data Engineering

PostgreSQL - Administracja

Data Modeling dla Data Engineering

Fivetran & Airbyte - Pozyskiwanie danych

Apache Airflow - Podstawy

Kubernetes - Podstawy

dbt - Zaawansowane funkcje

Wzorce ETL / ELT / ETLT

Apache Airflow - Zaawansowany

Airflow + dbt - Orkiestracja pipeline'ów

PySpark - Przetwarzanie na dużą skalę

Google Pub/Sub - Streaming danych

Apache Beam & Dataflow

Kubernetes - Produkcja i skalowanie

Terraform - Infrastructure as Code

Bazy danych NoSQL

Nowoczesna Data Architecture

Monitorowanie i obserwowalność

IAM i bezpieczeństwo danych

Opanuj Data Engineering na następną rozmowę