
Fivetran & Airbyte - Ingestione dati
Connettori, sync modes (full, incremental), CDC, schema evolution, trasformazioni, monitoraggio
1Qual è la principale differenza tra Fivetran e Airbyte in termini di modello di deployment?
Qual è la principale differenza tra Fivetran e Airbyte in termini di modello di deployment?
Risposta
Fivetran è una soluzione SaaS completamente gestita dove l'infrastruttura è gestita da Fivetran, mentre Airbyte offre un modello open-source self-hosted oltre a un'offerta cloud. Airbyte permette di distribuire la soluzione sulla propria infrastruttura (Docker, Kubernetes), offrendo maggiore controllo su dati e costi, mentre Fivetran semplifica le operazioni gestendo tutta la manutenzione.
2Cos'è un connector nel contesto di Fivetran o Airbyte?
Cos'è un connector nel contesto di Fivetran o Airbyte?
Risposta
Un connector è un componente preconfigurato che estrae dati da una sorgente specifica (database, API, SaaS) verso una destinazione (data warehouse, data lake). Ogni connector gestisce autenticazione, paginazione, gestione errori e mapping degli schemi per una data sorgente, evitando la necessità di scrivere codice di integrazione personalizzato.
3Qual è la differenza tra una sincronizzazione Full Refresh e Incremental?
Qual è la differenza tra una sincronizzazione Full Refresh e Incremental?
Risposta
Full Refresh estrae tutti i dati dalla sorgente ad ogni sincronizzazione e sostituisce i dati esistenti nella destinazione. Incremental trasferisce solo i nuovi dati o le modifiche dall'ultima sincronizzazione, utilizzando un cursor (timestamp, ID auto-incrementato). Incremental è più efficiente in termini di tempo, costi e carico sulla sorgente.
Cos'è il CDC (Change Data Capture) e perché viene utilizzato negli strumenti di ingestion?
Quale vantaggio principale offre il CDC rispetto a una sincronizzazione incrementale basata su timestamp?
+17 domande da colloquio
Altri argomenti di colloquio Data Engineering
Linux & Shell - Fondamenti
Git & GitHub - Fondamenti
Python avanzato per Data Engineering
Docker - Fondamenti
Google Cloud Platform - Fondamenti
CI/CD e qualità del codice
Docker Compose
FastAPI - API per dati
SQL avanzato per il Data Engineering
Data Lake - Architettura e ingestione
BigQuery per il Data Engineering
PostgreSQL - Amministrazione
Data Modeling per Data Engineering
dbt - Fondamenti
Apache Airflow - Fondamenti
Kubernetes - Fondamenti
dbt - Funzionalità avanzate
Pattern ETL / ELT / ETLT
Apache Airflow - Avanzato
Airflow + dbt - Orchestrazione delle pipeline
PySpark - Elaborazione su larga scala
Google Pub/Sub - Streaming di dati
Apache Beam & Dataflow
Kubernetes - Produzione e scaling
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture moderna
Monitoraggio e osservabilità
IAM e sicurezza dei dati
Padroneggia Data Engineering per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis