Question 1

O que é dbt (data build tool)?

Accepted Answer

dbt é uma ferramenta de transformação de dados que permite escrever transformações em SQL e executá-las em um data warehouse. Aplica os princípios de software engineering (versionamento, tests, documentação) ao trabalho de transformação de dados. dbt não realiza extração nem carregamento (o E e L de ELT), apenas transformação.

Question 2

Qual é a estrutura básica de um projeto dbt?

Accepted Answer

Um projeto dbt contém um arquivo dbt_project.yml na raiz que define a configuração do projeto. As pastas principais são models (contendo arquivos SQL), tests para tests customizados, macros para macros Jinja, seeds para arquivos CSV, e snapshots para capturas de dados históricos. O arquivo profiles.yml (geralmente fora do projeto) define as conexões aos warehouses.

Question 3

Qual é o papel do arquivo profiles.yml no dbt?

Accepted Answer

O arquivo profiles.yml contém as informações de conexão aos data warehouses (BigQuery, Snowflake, Redshift, PostgreSQL, etc.). Geralmente é armazenado na pasta ~/.dbt/ e não no projeto para evitar versionar credentials sensíveis. Cada perfil pode ter vários targets (dev, prod) permitindo alternar facilmente entre ambientes.

dbt - Fundamentos

O que é dbt (data build tool)?

Resposta

Qual é a estrutura básica de um projeto dbt?

Resposta

Qual é o papel do arquivo profiles.yml no dbt?

Resposta

O que é um model no dbt?

Qual é o papel da função ref() no dbt?

Outros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avançado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD e qualidade de código

Docker Compose

FastAPI - APIs de dados

SQL avançado para Data Engineering

Data Lake - Arquitetura e ingestão

BigQuery para Data Engineering

PostgreSQL - Administração

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingestão de dados

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Recursos avançados

Padrões ETL / ELT / ETLT

Apache Airflow - Avançado

Airflow + dbt - Orquestração de pipelines

PySpark - Processamento em grande escala

Google Pub/Sub - Streaming de dados

Apache Beam & Dataflow

Kubernetes - Produção e escalabilidade

Terraform - Infrastructure as Code

Bancos de dados NoSQL

Arquitetura Data moderna

Monitoramento e observabilidade

IAM e segurança de dados

Domine Data Engineering para sua proxima entrevista