Question 1

¿Qué es dbt (data build tool)?

Accepted Answer

dbt es una herramienta de transformación de datos que permite escribir transformaciones en SQL y ejecutarlas en un data warehouse. Aplica los principios de software engineering (versioning, tests, documentación) al trabajo de transformación de datos. dbt no realiza extracción ni carga (la E y L de ELT), solo transformación.

Question 2

¿Cuál es la estructura básica de un proyecto dbt?

Accepted Answer

Un proyecto dbt contiene un archivo dbt_project.yml en la raíz que define la configuración del proyecto. Las carpetas principales son models (que contiene archivos SQL), tests para tests personalizados, macros para macros Jinja, seeds para archivos CSV, y snapshots para capturas de datos históricos. El archivo profiles.yml (generalmente fuera del proyecto) define las conexiones a los warehouses.

Question 3

¿Cuál es el rol del archivo profiles.yml en dbt?

Accepted Answer

El archivo profiles.yml contiene la información de conexión a los data warehouses (BigQuery, Snowflake, Redshift, PostgreSQL, etc.). Generalmente se almacena en la carpeta ~/.dbt/ y no en el proyecto para evitar versionar credentials sensibles. Cada perfil puede tener varios targets (dev, prod) que permiten cambiar fácilmente entre entornos.

dbt - Fundamentos

¿Qué es dbt (data build tool)?

Respuesta

¿Cuál es la estructura básica de un proyecto dbt?

Respuesta

¿Cuál es el rol del archivo profiles.yml en dbt?

Respuesta

¿Qué es un model en dbt?

¿Cuál es el rol de la función ref() en dbt?

Otros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avanzado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD y calidad de código

Docker Compose

FastAPI - APIs de datos

SQL avanzado para Data Engineering

Data Lake - Arquitectura e ingesta

BigQuery para Data Engineering

PostgreSQL - Administración

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingesta de datos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Funcionalidades avanzadas

Patrones ETL / ELT / ETLT

Apache Airflow - Avanzado

Airflow + dbt - Orquestación de pipelines

PySpark - Procesamiento a gran escala

Google Pub/Sub - Streaming de datos

Apache Beam & Dataflow

Kubernetes - Producción y escalado

Terraform - Infrastructure as Code

Bases de datos NoSQL

Arquitectura Data moderna

Monitoreo y observabilidad

IAM y seguridad de datos

Domina Data Engineering para tu próxima entrevista