Question 1

Qual é a principal diferença entre ETL e ELT?

Accepted Answer

No ETL (Extract-Transform-Load), os dados são transformados em um servidor intermediário antes de serem carregados no destino. No ELT (Extract-Load-Transform), os dados brutos são primeiro carregados no destino (geralmente um data warehouse cloud) e depois transformados diretamente nele usando seu poder de processamento. ELT tornou-se popular com data warehouses cloud como BigQuery, Snowflake ou Redshift que oferecem poder de processamento elástico.

Question 2

Qual é a principal vantagem da abordagem ELT em comparação ao ETL tradicional?

Accepted Answer

A abordagem ELT aproveita o poder de processamento elástico dos data warehouses cloud modernos (BigQuery, Snowflake, Redshift). Em vez de manter uma infraestrutura de transformação separada que pode se tornar um gargalo, as transformações usam diretamente as capacidades de scaling do data warehouse. Isso reduz a complexidade operacional e permite processar volumes de dados muito maiores sem provisionamento manual de recursos.

Question 3

O que é o padrão ETLT e quando é relevante?

Accepted Answer

ETLT combina ambas as abordagens: uma primeira transformação leve é realizada durante a extração (limpeza, filtragem, anonimização), em seguida os dados são carregados e transformações mais complexas são aplicadas no data warehouse. Este padrão é útil quando certas transformações devem ser feitas a montante por razões de compliance (mascaramento de dados sensíveis antes do carregamento), redução de volume (filtragem antecipada) ou normalização de formatos de origem heterogêneos.

Padrões ETL / ELT / ETLT

Qual é a principal diferença entre ETL e ELT?

Resposta

Qual é a principal vantagem da abordagem ELT em comparação ao ETL tradicional?

Resposta

O que é o padrão ETLT e quando é relevante?

Resposta

O que é idempotência no contexto de pipelines de dados?

Como implementar a idempotência ao carregar dados em uma tabela?

Outros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avançado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD e qualidade de código

Docker Compose

FastAPI - APIs de dados

SQL avançado para Data Engineering

Data Lake - Arquitetura e ingestão

BigQuery para Data Engineering

PostgreSQL - Administração

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingestão de dados

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Recursos avançados

Apache Airflow - Avançado

Airflow + dbt - Orquestração de pipelines

PySpark - Processamento em grande escala

Google Pub/Sub - Streaming de dados

Apache Beam & Dataflow

Kubernetes - Produção e escalabilidade

Terraform - Infrastructure as Code

Bancos de dados NoSQL

Arquitetura Data moderna

Monitoramento e observabilidade

IAM e segurança de dados

Domine Data Engineering para sua proxima entrevista