Question 1

No dbt, qual é a função principal das macros Jinja?

Accepted Answer

As macros Jinja permitem reutilizar código SQL em vários modelos dbt. Elas funcionam como funções que aceitam parâmetros e retornam código SQL gerado dinamicamente. Isso evita a duplicação de código e facilita a manutenção de transformações complexas em todo o projeto.

Question 2

Como definir uma macro dbt reutilizável em um arquivo?

Accepted Answer

Uma macro dbt é definida usando a sintaxe Jinja macro/endmacro em um arquivo .sql dentro da pasta macros. O nome da macro é especificado após a palavra-chave macro, seguido por parâmetros entre parênteses. Essa macro pode então ser chamada de qualquer modelo do projeto.

Question 3

Qual é a diferença entre as estratégias 'timestamp' e 'check' para snapshots dbt?

Accepted Answer

A estratégia timestamp compara uma coluna de data de atualização (updated_at) para detectar mudanças, o que é mais eficiente pois compara apenas uma coluna. A estratégia check compara valores de colunas especificadas (check_cols) para detectar qualquer mudança, útil quando não há uma coluna de timestamp confiável disponível.

dbt - Recursos avançados

No dbt, qual é a função principal das macros Jinja?

Resposta

Como definir uma macro dbt reutilizável em um arquivo?

Resposta

Qual é a diferença entre as estratégias 'timestamp' e 'check' para snapshots dbt?

Resposta

Quais colunas são adicionadas automaticamente pelo dbt ao criar um snapshot?

Como configurar um modelo incremental com a estratégia 'merge' no dbt?

Outros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avançado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD e qualidade de código

Docker Compose

FastAPI - APIs de dados

SQL avançado para Data Engineering

Data Lake - Arquitetura e ingestão

BigQuery para Data Engineering

PostgreSQL - Administração

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingestão de dados

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

Padrões ETL / ELT / ETLT

Apache Airflow - Avançado

Airflow + dbt - Orquestração de pipelines

PySpark - Processamento em grande escala

Google Pub/Sub - Streaming de dados

Apache Beam & Dataflow

Kubernetes - Produção e escalabilidade

Terraform - Infrastructure as Code

Bancos de dados NoSQL

Arquitetura Data moderna

Monitoramento e observabilidade

IAM e segurança de dados

Domine Data Engineering para sua proxima entrevista