
dbt - Grundlagen
dbt-Projekt, Models, Sources, Refs, Tests, Dokumentation, Materializations, Seeds
1Was ist dbt (data build tool)?
Was ist dbt (data build tool)?
Antwort
dbt ist ein Datentransformationstool, das es Analysten und Data Engineers ermöglicht, Transformationen in SQL oder Python direkt im Data Warehouse zu schreiben. Es folgt dem ELT-Ansatz (Extract, Load, Transform), bei dem Daten zuerst in das Warehouse geladen und dann an Ort und Stelle transformiert werden, im Gegensatz zum klassischen ETL, das vor dem Laden transformiert. dbt verwaltet automatisch Modellabhängigkeiten, Tests und Dokumentation.
2Was ist die grundlegende Struktur eines dbt-Projekts?
Was ist die grundlegende Struktur eines dbt-Projekts?
Antwort
Ein dbt-Projekt ist um Schlüsselordner organisiert: models/ enthält SQL-Dateien, die Transformationen definieren, seeds/ enthält CSV-Dateien, die als Tabellen geladen werden, tests/ speichert benutzerdefinierte Tests, macros/ hat wiederverwendbare Jinja-Funktionen und snapshots/ bewahrt Zustandserfassungen auf. Die Datei dbt_project.yml im Stammverzeichnis konfiguriert das Projekt (Name, Version, Standard-Materializations), während profiles.yml die Warehouse-Verbindungen definiert.
3Was ist ein Model in dbt?
Was ist ein Model in dbt?
Antwort
Ein dbt-Model ist eine SQL-Datei, die eine SELECT-Anweisung enthält und eine Datentransformation definiert. Jedes Model entspricht einer .sql-Datei im Ordner models/ und erzeugt bei der Ausführung eine Tabelle oder Ansicht im Data Warehouse. Models können andere Models über die ref()-Funktion referenzieren und so einen Abhängigkeitsgraphen (DAG) erstellen, den dbt in der richtigen Reihenfolge ausführt.
Wozu dient die ref()-Funktion in dbt?
Was ist eine Source in dbt und wie deklariert man sie?
+17 Interview-Fragen
Weitere Data Analytics-Interviewthemen
Google Sheets - Grundlagen
Google Sheets - Erweiterte Formeln
SQL - Grundlagen
SQL - Aggregationen und Gruppierungen
SQL - Joins
BigQuery - Grundlagen
Data Cleaning - Datenbereinigung
KPIs und Business-Metriken
Deskriptive Statistik
Zapier und No-Code-Automatisierung
Grundlagen der Datenvisualisierung
Python & Pandas - Grundlagen
Google Sheets - Automatisierte Dashboards
SQL - Unterabfragen und CTEs
SQL - Window Functions
BigQuery - Erweiterte Funktionen
Data Modeling
Funnel- und Conversion-Analyse
Kohorten- und Retention-Analyse
Google Tag Manager und Tracking
APIs und Webhooks
AB-Testing und angewandte Statistik
Looker Studio (Google Data Studio)
Power BI - Grundlagen
SQL - Erweiterte analytische Abfragen
dbt - Erweiterte Funktionen
Power BI - DAX und fortgeschrittene Dashboards
Python Analytics - Erweiterte Analyse und ML
Meistere Data Analytics für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten