
dbt - Grundlagen
dbt-Projekt, Models, Sources, Refs, Tests, Dokumentation, Materializations (table, view, incremental), Seeds
1Was ist dbt (data build tool)?
Was ist dbt (data build tool)?
Antwort
dbt ist ein Datentransformations-Tool, das es ermöglicht, Transformationen in SQL zu schreiben und in einem Data Warehouse auszuführen. Es wendet Software-Engineering-Prinzipien (Versionierung, Tests, Dokumentation) auf die Datentransformationsarbeit an. dbt übernimmt weder Extraktion noch Laden (das E und L von ELT), sondern nur die Transformation.
2Was ist die Grundstruktur eines dbt-Projekts?
Was ist die Grundstruktur eines dbt-Projekts?
Antwort
Ein dbt-Projekt enthält eine dbt_project.yml-Datei im Stammverzeichnis, die die Projektkonfiguration definiert. Die Hauptordner sind models (mit SQL-Dateien), tests für benutzerdefinierte Tests, macros für Jinja-Makros, seeds für CSV-Dateien und snapshots für historische Datenerfassungen. Die profiles.yml-Datei (normalerweise außerhalb des Projekts) definiert Warehouse-Verbindungen.
3Welche Rolle spielt die profiles.yml-Datei in dbt?
Welche Rolle spielt die profiles.yml-Datei in dbt?
Antwort
Die profiles.yml-Datei enthält Verbindungsinformationen zu Data Warehouses (BigQuery, Snowflake, Redshift, PostgreSQL usw.). Sie wird normalerweise im Ordner ~/.dbt/ und nicht im Projekt gespeichert, um zu vermeiden, dass sensible Credentials versioniert werden. Jedes Profil kann mehrere Targets (dev, prod) haben, was den einfachen Wechsel zwischen Umgebungen ermöglicht.
Was ist ein Model in dbt?
Welche Rolle spielt die Funktion ref() in dbt?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
Data Lake - Architektur und Ingestion
BigQuery für Data Engineering
PostgreSQL - Administration
Data Modeling für Data Engineering
Fivetran & Airbyte - Daten-Ingestion
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
ETL- / ELT- / ETLT-Patterns
Apache Airflow - Fortgeschritten
Airflow + dbt - Pipeline-Orchestrierung
PySpark - Verarbeitung im großen Maßstab
Google Pub/Sub - Daten-Streaming
Apache Beam & Dataflow
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Moderne Data Architecture
Monitoring und Observability
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten