Question 1

Was ist dbt (data build tool)?

Accepted Answer

dbt ist ein Datentransformations-Tool, das es ermöglicht, Transformationen in SQL zu schreiben und in einem Data Warehouse auszuführen. Es wendet Software-Engineering-Prinzipien (Versionierung, Tests, Dokumentation) auf die Datentransformationsarbeit an. dbt übernimmt weder Extraktion noch Laden (das E und L von ELT), sondern nur die Transformation.

Question 2

Was ist die Grundstruktur eines dbt-Projekts?

Accepted Answer

Ein dbt-Projekt enthält eine dbt_project.yml-Datei im Stammverzeichnis, die die Projektkonfiguration definiert. Die Hauptordner sind models (mit SQL-Dateien), tests für benutzerdefinierte Tests, macros für Jinja-Makros, seeds für CSV-Dateien und snapshots für historische Datenerfassungen. Die profiles.yml-Datei (normalerweise außerhalb des Projekts) definiert Warehouse-Verbindungen.

Question 3

Welche Rolle spielt die profiles.yml-Datei in dbt?

Accepted Answer

Die profiles.yml-Datei enthält Verbindungsinformationen zu Data Warehouses (BigQuery, Snowflake, Redshift, PostgreSQL usw.). Sie wird normalerweise im Ordner ~/.dbt/ und nicht im Projekt gespeichert, um zu vermeiden, dass sensible Credentials versioniert werden. Jedes Profil kann mehrere Targets (dev, prod) haben, was den einfachen Wechsel zwischen Umgebungen ermöglicht.

dbt - Grundlagen

Was ist dbt (data build tool)?

Antwort

Was ist die Grundstruktur eines dbt-Projekts?

Antwort

Welche Rolle spielt die profiles.yml-Datei in dbt?

Antwort

Was ist ein Model in dbt?

Welche Rolle spielt die Funktion ref() in dbt?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

Data Lake - Architektur und Ingestion

BigQuery für Data Engineering

PostgreSQL - Administration

Data Modeling für Data Engineering

Fivetran & Airbyte - Daten-Ingestion

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Apache Airflow - Fortgeschritten

Airflow + dbt - Pipeline-Orchestrierung

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Moderne Data Architecture

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview