Data Analytics

dbt - Grundlagen

dbt-Projekt, Models, Sources, Refs, Tests, Dokumentation, Materializations, Seeds

20 Interview-Fragen·
Mid-Level
1

Was ist dbt (data build tool)?

Antwort

dbt ist ein Datentransformationstool, das es Analysten und Data Engineers ermöglicht, Transformationen in SQL oder Python direkt im Data Warehouse zu schreiben. Es folgt dem ELT-Ansatz (Extract, Load, Transform), bei dem Daten zuerst in das Warehouse geladen und dann an Ort und Stelle transformiert werden, im Gegensatz zum klassischen ETL, das vor dem Laden transformiert. dbt verwaltet automatisch Modellabhängigkeiten, Tests und Dokumentation.

2

Was ist die grundlegende Struktur eines dbt-Projekts?

Antwort

Ein dbt-Projekt ist um Schlüsselordner organisiert: models/ enthält SQL-Dateien, die Transformationen definieren, seeds/ enthält CSV-Dateien, die als Tabellen geladen werden, tests/ speichert benutzerdefinierte Tests, macros/ hat wiederverwendbare Jinja-Funktionen und snapshots/ bewahrt Zustandserfassungen auf. Die Datei dbt_project.yml im Stammverzeichnis konfiguriert das Projekt (Name, Version, Standard-Materializations), während profiles.yml die Warehouse-Verbindungen definiert.

3

Was ist ein Model in dbt?

Antwort

Ein dbt-Model ist eine SQL-Datei, die eine SELECT-Anweisung enthält und eine Datentransformation definiert. Jedes Model entspricht einer .sql-Datei im Ordner models/ und erzeugt bei der Ausführung eine Tabelle oder Ansicht im Data Warehouse. Models können andere Models über die ref()-Funktion referenzieren und so einen Abhängigkeitsgraphen (DAG) erstellen, den dbt in der richtigen Reihenfolge ausführt.

4

Wozu dient die ref()-Funktion in dbt?

5

Was ist eine Source in dbt und wie deklariert man sie?

+17 Interview-Fragen

Meistere Data Analytics für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten