
dbt - Fundamentos
Proyecto dbt, models, sources, refs, tests, documentación, materializations (table, view, incremental), seeds
1¿Qué es dbt (data build tool)?
¿Qué es dbt (data build tool)?
Respuesta
dbt es una herramienta de transformación de datos que permite escribir transformaciones en SQL y ejecutarlas en un data warehouse. Aplica los principios de software engineering (versioning, tests, documentación) al trabajo de transformación de datos. dbt no realiza extracción ni carga (la E y L de ELT), solo transformación.
2¿Cuál es la estructura básica de un proyecto dbt?
¿Cuál es la estructura básica de un proyecto dbt?
Respuesta
Un proyecto dbt contiene un archivo dbt_project.yml en la raíz que define la configuración del proyecto. Las carpetas principales son models (que contiene archivos SQL), tests para tests personalizados, macros para macros Jinja, seeds para archivos CSV, y snapshots para capturas de datos históricos. El archivo profiles.yml (generalmente fuera del proyecto) define las conexiones a los warehouses.
3¿Cuál es el rol del archivo profiles.yml en dbt?
¿Cuál es el rol del archivo profiles.yml en dbt?
Respuesta
El archivo profiles.yml contiene la información de conexión a los data warehouses (BigQuery, Snowflake, Redshift, PostgreSQL, etc.). Generalmente se almacena en la carpeta ~/.dbt/ y no en el proyecto para evitar versionar credentials sensibles. Cada perfil puede tener varios targets (dev, prod) que permiten cambiar fácilmente entre entornos.
¿Qué es un model en dbt?
¿Cuál es el rol de la función ref() en dbt?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
BigQuery para Data Engineering
PostgreSQL - Administración
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingesta de datos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Apache Airflow - Avanzado
Airflow + dbt - Orquestación de pipelines
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis