
Fivetran & Airbyte - Ingestão de dados
Conectores, sync modes (full, incremental), CDC, schema evolution, transformações, monitoramento
1Qual é a principal diferença entre Fivetran e Airbyte em termos de modelo de implantação?
Qual é a principal diferença entre Fivetran e Airbyte em termos de modelo de implantação?
Resposta
Fivetran é uma solução SaaS totalmente gerenciada onde a infraestrutura é gerenciada pelo Fivetran, enquanto Airbyte oferece um modelo open-source self-hosted além de uma oferta cloud. Airbyte permite implantar a solução em sua própria infraestrutura (Docker, Kubernetes), oferecendo mais controle sobre dados e custos, enquanto Fivetran simplifica as operações gerenciando toda a manutenção.
2O que é um connector no contexto de Fivetran ou Airbyte?
O que é um connector no contexto de Fivetran ou Airbyte?
Resposta
Um connector é um componente pré-configurado que extrai dados de uma fonte específica (banco de dados, API, SaaS) para um destino (data warehouse, data lake). Cada connector gerencia autenticação, paginação, tratamento de erros e mapeamento de schemas para uma fonte específica, evitando escrever código de integração personalizado.
3Qual é a diferença entre uma sincronização Full Refresh e Incremental?
Qual é a diferença entre uma sincronização Full Refresh e Incremental?
Resposta
Full Refresh extrai todos os dados da fonte em cada sincronização e substitui os dados existentes no destino. Incremental transfere apenas dados novos ou alterações desde a última sincronização, usando um cursor (timestamp, ID auto-incremento). Incremental é mais eficiente em termos de tempo, custos e carga na fonte.
O que é CDC (Change Data Capture) e por que é usado em ferramentas de ingestão?
Qual a principal vantagem que o CDC oferece em comparação com sync incremental baseado em timestamp?
+17 perguntas de entrevista
Outros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avançado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD e qualidade de código
Docker Compose
FastAPI - APIs de dados
SQL avançado para Data Engineering
Data Lake - Arquitetura e ingestão
BigQuery para Data Engineering
PostgreSQL - Administração
Data Modeling para Data Engineering
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Recursos avançados
Padrões ETL / ELT / ETLT
Apache Airflow - Avançado
Airflow + dbt - Orquestração de pipelines
PySpark - Processamento em grande escala
Google Pub/Sub - Streaming de dados
Apache Beam & Dataflow
Kubernetes - Produção e escalabilidade
Terraform - Infrastructure as Code
Bancos de dados NoSQL
Arquitetura Data moderna
Monitoramento e observabilidade
IAM e segurança de dados
Domine Data Engineering para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis