Question 1

Cos'è dbt (data build tool)?

Accepted Answer

dbt è uno strumento di trasformazione dati che permette di scrivere trasformazioni in SQL ed eseguirle in un data warehouse. Applica i principi di software engineering (versioning, tests, documentazione) al lavoro di trasformazione dati. dbt non gestisce l'estrazione né il caricamento (la E e la L di ELT), solo la trasformazione.

Question 2

Qual è la struttura di base di un progetto dbt?

Accepted Answer

Un progetto dbt contiene un file dbt_project.yml nella radice che definisce la configurazione del progetto. Le cartelle principali sono models (contenente file SQL), tests per test custom, macros per macro Jinja, seeds per file CSV, e snapshots per acquisizioni di dati storici. Il file profiles.yml (di solito fuori dal progetto) definisce le connessioni ai warehouse.

Question 3

Qual è il ruolo del file profiles.yml in dbt?

Accepted Answer

Il file profiles.yml contiene le informazioni di connessione ai data warehouse (BigQuery, Snowflake, Redshift, PostgreSQL, ecc.). Solitamente è memorizzato nella cartella ~/.dbt/ e non nel progetto per evitare di versionare credentials sensibili. Ogni profilo può avere più target (dev, prod) che permettono di passare facilmente tra ambienti.

dbt - Fondamenti

Cos'è dbt (data build tool)?

Risposta

Qual è la struttura di base di un progetto dbt?

Risposta

Qual è il ruolo del file profiles.yml in dbt?

Risposta

Cos'è un model in dbt?

Qual è il ruolo della funzione ref() in dbt?

Altri argomenti di colloquio Data Engineering

Linux & Shell - Fondamenti

Git & GitHub - Fondamenti

Python avanzato per Data Engineering

Docker - Fondamenti

Google Cloud Platform - Fondamenti

CI/CD e qualità del codice

Docker Compose

FastAPI - API per dati

SQL avanzato per il Data Engineering

Data Lake - Architettura e ingestione

BigQuery per il Data Engineering

PostgreSQL - Amministrazione

Data Modeling per Data Engineering

Fivetran & Airbyte - Ingestione dati

Apache Airflow - Fondamenti

Kubernetes - Fondamenti

dbt - Funzionalità avanzate

Pattern ETL / ELT / ETLT

Apache Airflow - Avanzato

Airflow + dbt - Orchestrazione delle pipeline

PySpark - Elaborazione su larga scala

Google Pub/Sub - Streaming di dati

Apache Beam & Dataflow

Kubernetes - Produzione e scaling

Terraform - Infrastructure as Code

Database NoSQL

Data Architecture moderna

Monitoraggio e osservabilità

IAM e sicurezza dei dati

Padroneggia Data Engineering per il tuo prossimo colloquio