Data Engineering

Fivetran & Airbyte - Ingesta de datos

Conectores, sync modes (full, incremental), CDC, schema evolution, transformaciones, monitoreo

20 preguntas de entrevista·
Mid-Level
1

¿Cuál es la principal diferencia entre Fivetran y Airbyte en términos de modelo de despliegue?

Respuesta

Fivetran es una solución SaaS totalmente gestionada donde la infraestructura es manejada por Fivetran, mientras que Airbyte ofrece un modelo open-source self-hosted además de una oferta cloud. Airbyte permite desplegar la solución en tu propia infraestructura (Docker, Kubernetes), brindando más control sobre los datos y los costos, mientras que Fivetran simplifica las operaciones al gestionar todo el mantenimiento.

2

¿Qué es un connector en el contexto de Fivetran o Airbyte?

Respuesta

Un connector es un componente preconfigurado que extrae datos desde una fuente específica (base de datos, API, SaaS) hacia un destino (data warehouse, data lake). Cada connector maneja la autenticación, paginación, manejo de errores y mapeo de schemas para una fuente determinada, evitando escribir código de integración personalizado.

3

¿Cuál es la diferencia entre una sincronización Full Refresh e Incremental?

Respuesta

Full Refresh extrae todos los datos de la fuente en cada sincronización y reemplaza los datos existentes en el destino. Incremental solo transfiere los datos nuevos o los cambios desde la última sincronización, utilizando un cursor (timestamp, ID auto-incrementado). Incremental es más eficiente en términos de tiempo, costos y carga sobre la fuente.

4

¿Qué es CDC (Change Data Capture) y por qué se usa en herramientas de ingesta?

5

¿Qué ventaja principal aporta el CDC en comparación con una sincronización incremental basada en timestamp?

+17 preguntas de entrevista

Domina Data Engineering para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis