Data Engineering

Fivetran & Airbyte - Ingestione dati

Connettori, sync modes (full, incremental), CDC, schema evolution, trasformazioni, monitoraggio

20 domande da colloquio·
Mid-Level
1

Qual è la principale differenza tra Fivetran e Airbyte in termini di modello di deployment?

Risposta

Fivetran è una soluzione SaaS completamente gestita dove l'infrastruttura è gestita da Fivetran, mentre Airbyte offre un modello open-source self-hosted oltre a un'offerta cloud. Airbyte permette di distribuire la soluzione sulla propria infrastruttura (Docker, Kubernetes), offrendo maggiore controllo su dati e costi, mentre Fivetran semplifica le operazioni gestendo tutta la manutenzione.

2

Cos'è un connector nel contesto di Fivetran o Airbyte?

Risposta

Un connector è un componente preconfigurato che estrae dati da una sorgente specifica (database, API, SaaS) verso una destinazione (data warehouse, data lake). Ogni connector gestisce autenticazione, paginazione, gestione errori e mapping degli schemi per una data sorgente, evitando la necessità di scrivere codice di integrazione personalizzato.

3

Qual è la differenza tra una sincronizzazione Full Refresh e Incremental?

Risposta

Full Refresh estrae tutti i dati dalla sorgente ad ogni sincronizzazione e sostituisce i dati esistenti nella destinazione. Incremental trasferisce solo i nuovi dati o le modifiche dall'ultima sincronizzazione, utilizzando un cursor (timestamp, ID auto-incrementato). Incremental è più efficiente in termini di tempo, costi e carico sulla sorgente.

4

Cos'è il CDC (Change Data Capture) e perché viene utilizzato negli strumenti di ingestion?

5

Quale vantaggio principale offre il CDC rispetto a una sincronizzazione incrementale basata su timestamp?

+17 domande da colloquio

Padroneggia Data Engineering per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis