
Padrões ETL / ELT / ETLT
ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, idempotência, tratamento de erros, dead letter queues, qualidade de dados, lineage
1Qual é a principal diferença entre ETL e ELT?
Qual é a principal diferença entre ETL e ELT?
Resposta
No ETL (Extract-Transform-Load), os dados são transformados em um servidor intermediário antes de serem carregados no destino. No ELT (Extract-Load-Transform), os dados brutos são primeiro carregados no destino (geralmente um data warehouse cloud) e depois transformados diretamente nele usando seu poder de processamento. ELT tornou-se popular com data warehouses cloud como BigQuery, Snowflake ou Redshift que oferecem poder de processamento elástico.
2Qual é a principal vantagem da abordagem ELT em comparação ao ETL tradicional?
Qual é a principal vantagem da abordagem ELT em comparação ao ETL tradicional?
Resposta
A abordagem ELT aproveita o poder de processamento elástico dos data warehouses cloud modernos (BigQuery, Snowflake, Redshift). Em vez de manter uma infraestrutura de transformação separada que pode se tornar um gargalo, as transformações usam diretamente as capacidades de scaling do data warehouse. Isso reduz a complexidade operacional e permite processar volumes de dados muito maiores sem provisionamento manual de recursos.
3O que é o padrão ETLT e quando é relevante?
O que é o padrão ETLT e quando é relevante?
Resposta
ETLT combina ambas as abordagens: uma primeira transformação leve é realizada durante a extração (limpeza, filtragem, anonimização), em seguida os dados são carregados e transformações mais complexas são aplicadas no data warehouse. Este padrão é útil quando certas transformações devem ser feitas a montante por razões de compliance (mascaramento de dados sensíveis antes do carregamento), redução de volume (filtragem antecipada) ou normalização de formatos de origem heterogêneos.
O que é idempotência no contexto de pipelines de dados?
Como implementar a idempotência ao carregar dados em uma tabela?
+17 perguntas de entrevista
Outros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avançado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD e qualidade de código
Docker Compose
FastAPI - APIs de dados
SQL avançado para Data Engineering
Data Lake - Arquitetura e ingestão
BigQuery para Data Engineering
PostgreSQL - Administração
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingestão de dados
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Recursos avançados
Apache Airflow - Avançado
Airflow + dbt - Orquestração de pipelines
PySpark - Processamento em grande escala
Google Pub/Sub - Streaming de dados
Apache Beam & Dataflow
Kubernetes - Produção e escalabilidade
Terraform - Infrastructure as Code
Bancos de dados NoSQL
Arquitetura Data moderna
Monitoramento e observabilidade
IAM e segurança de dados
Domine Data Engineering para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis