
Fivetran & Airbyte - Ingestion de données
Connecteurs, sync modes (full, incremental), CDC, schema evolution, transformations, monitoring
1Quelle est la principale différence entre Fivetran et Airbyte en termes de modèle de déploiement ?
Quelle est la principale différence entre Fivetran et Airbyte en termes de modèle de déploiement ?
Réponse
Fivetran est une solution SaaS entièrement managée où l'infrastructure est gérée par Fivetran, tandis qu'Airbyte propose un modèle open-source self-hosted en plus d'une offre cloud. Airbyte permet de déployer la solution sur sa propre infrastructure (Docker, Kubernetes), offrant plus de contrôle sur les données et les coûts, alors que Fivetran simplifie les opérations en gérant toute la maintenance.
2Qu'est-ce qu'un connecteur (connector) dans le contexte de Fivetran ou Airbyte ?
Qu'est-ce qu'un connecteur (connector) dans le contexte de Fivetran ou Airbyte ?
Réponse
Un connecteur est un composant préconfiguré qui permet d'extraire des données depuis une source spécifique (base de données, API, SaaS) vers une destination (data warehouse, data lake). Chaque connecteur gère l'authentification, la pagination, la gestion des erreurs et le mapping des schémas pour une source donnée, évitant d'écrire du code d'intégration personnalisé.
3Quelle est la différence entre une synchronisation Full Refresh et Incremental ?
Quelle est la différence entre une synchronisation Full Refresh et Incremental ?
Réponse
Full Refresh extrait l'intégralité des données de la source à chaque synchronisation et remplace les données existantes dans la destination. Incremental ne transfère que les nouvelles données ou les modifications depuis la dernière synchronisation, en utilisant un curseur (timestamp, ID auto-incrémenté). L'Incremental est plus efficace en termes de temps, coûts et charge sur la source.
Qu'est-ce que le CDC (Change Data Capture) et pourquoi est-il utilisé dans les outils d'ingestion ?
Quel avantage principal le CDC apporte-t-il par rapport à une synchronisation incrémentale basée sur un timestamp ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
Data Lake - Architecture et ingestion
BigQuery pour le Data Engineering
PostgreSQL - Administration
Data Modeling pour le Data Engineering
dbt - Fondamentaux
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Patterns ETL / ELT / ETLT
Apache Airflow - Avancé
Airflow + dbt - Orchestration de pipelines
PySpark - Traitement à grande échelle
Google Pub/Sub - Streaming de données
Apache Beam & Dataflow
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Architecture Data moderne
Monitoring et observabilité
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement