
Fivetran & Airbyte - Ingesta de datos
Conectores, sync modes (full, incremental), CDC, schema evolution, transformaciones, monitoreo
1¿Cuál es la principal diferencia entre Fivetran y Airbyte en términos de modelo de despliegue?
¿Cuál es la principal diferencia entre Fivetran y Airbyte en términos de modelo de despliegue?
Respuesta
Fivetran es una solución SaaS totalmente gestionada donde la infraestructura es manejada por Fivetran, mientras que Airbyte ofrece un modelo open-source self-hosted además de una oferta cloud. Airbyte permite desplegar la solución en tu propia infraestructura (Docker, Kubernetes), brindando más control sobre los datos y los costos, mientras que Fivetran simplifica las operaciones al gestionar todo el mantenimiento.
2¿Qué es un connector en el contexto de Fivetran o Airbyte?
¿Qué es un connector en el contexto de Fivetran o Airbyte?
Respuesta
Un connector es un componente preconfigurado que extrae datos desde una fuente específica (base de datos, API, SaaS) hacia un destino (data warehouse, data lake). Cada connector maneja la autenticación, paginación, manejo de errores y mapeo de schemas para una fuente determinada, evitando escribir código de integración personalizado.
3¿Cuál es la diferencia entre una sincronización Full Refresh e Incremental?
¿Cuál es la diferencia entre una sincronización Full Refresh e Incremental?
Respuesta
Full Refresh extrae todos los datos de la fuente en cada sincronización y reemplaza los datos existentes en el destino. Incremental solo transfiere los datos nuevos o los cambios desde la última sincronización, utilizando un cursor (timestamp, ID auto-incrementado). Incremental es más eficiente en términos de tiempo, costos y carga sobre la fuente.
¿Qué es CDC (Change Data Capture) y por qué se usa en herramientas de ingesta?
¿Qué ventaja principal aporta el CDC en comparación con una sincronización incremental basada en timestamp?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
BigQuery para Data Engineering
PostgreSQL - Administración
Data Modeling para Data Engineering
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Apache Airflow - Avanzado
Airflow + dbt - Orquestación de pipelines
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis