
dbt - Grondbeginselen
dbt-project, models, sources, refs, tests, documentatie, materializations (table, view, incremental), seeds
1Wat is dbt (data build tool)?
Wat is dbt (data build tool)?
Antwoord
dbt is een data-transformatietool waarmee transformaties in SQL geschreven en in een data warehouse uitgevoerd kunnen worden. Het past software-engineering principes (versiebeheer, tests, documentatie) toe op het transformeren van data. dbt verzorgt geen extractie of laden (de E en L van ELT), alleen de transformatie.
2Wat is de basisstructuur van een dbt-project?
Wat is de basisstructuur van een dbt-project?
Antwoord
Een dbt-project bevat een dbt_project.yml-bestand in de root dat de projectconfiguratie definieert. De belangrijkste mappen zijn models (met SQL-bestanden), tests voor aangepaste tests, macros voor Jinja-macro's, seeds voor CSV-bestanden, en snapshots voor historische data-captures. Het profiles.yml-bestand (meestal buiten het project) definieert de verbindingen met warehouses.
3Wat is de rol van het profiles.yml-bestand in dbt?
Wat is de rol van het profiles.yml-bestand in dbt?
Antwoord
Het profiles.yml-bestand bevat verbindingsinformatie naar data warehouses (BigQuery, Snowflake, Redshift, PostgreSQL, enz.). Het wordt meestal opgeslagen in de ~/.dbt/-map en niet in het project om het versiebeheer van gevoelige credentials te vermijden. Elk profiel kan meerdere targets (dev, prod) hebben, waardoor eenvoudig kan worden geschakeld tussen omgevingen.
Wat is een model in dbt?
Wat is de rol van de ref()-functie in dbt?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
Data Lake - Architectuur en ingestie
BigQuery voor Data Engineering
PostgreSQL - Administratie
Data Modeling voor Data Engineering
Fivetran & Airbyte - Data-ingestie
Apache Airflow - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
ETL- / ELT- / ETLT-patronen
Apache Airflow - Gevorderd
Airflow + dbt - Pipeline-orkestratie
PySpark - Grootschalige verwerking
Google Pub/Sub - Datastreaming
Apache Beam & Dataflow
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Moderne Data Architecture
Monitoring en observability
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis