
Fivetran & Airbyte - Daten-Ingestion
Konnektoren, Sync Modes (full, incremental), CDC, Schema Evolution, Transformationen, Monitoring
1Was ist der Hauptunterschied zwischen Fivetran und Airbyte in Bezug auf das Deployment-Modell?
Was ist der Hauptunterschied zwischen Fivetran und Airbyte in Bezug auf das Deployment-Modell?
Antwort
Fivetran ist eine vollständig verwaltete SaaS-Lösung, bei der die Infrastruktur von Fivetran verwaltet wird, während Airbyte zusätzlich zu einem Cloud-Angebot ein Open-Source-Self-Hosted-Modell anbietet. Airbyte ermöglicht die Bereitstellung der Lösung auf eigener Infrastruktur (Docker, Kubernetes) und bietet so mehr Kontrolle über Daten und Kosten, während Fivetran den Betrieb durch die Verwaltung aller Wartungsarbeiten vereinfacht.
2Was ist ein Connector im Kontext von Fivetran oder Airbyte?
Was ist ein Connector im Kontext von Fivetran oder Airbyte?
Antwort
Ein Connector ist eine vorkonfigurierte Komponente, die Daten aus einer bestimmten Quelle (Datenbank, API, SaaS) zu einem Ziel (Data Warehouse, Data Lake) extrahiert. Jeder Connector handhabt Authentifizierung, Paginierung, Fehlerbehandlung und Schema-Mapping für eine bestimmte Quelle und vermeidet so das Schreiben benutzerdefinierten Integrationscodes.
3Was ist der Unterschied zwischen Full Refresh- und Incremental-Synchronisierung?
Was ist der Unterschied zwischen Full Refresh- und Incremental-Synchronisierung?
Antwort
Full Refresh extrahiert bei jeder Synchronisierung alle Daten aus der Quelle und ersetzt vorhandene Daten im Ziel. Incremental überträgt nur neue Daten oder Änderungen seit der letzten Synchronisierung mithilfe eines Cursors (Timestamp, Auto-Increment-ID). Incremental ist effizienter hinsichtlich Zeit, Kosten und Last auf der Quelle.
Was ist CDC (Change Data Capture) und warum wird es in Ingestion-Tools verwendet?
Welchen Hauptvorteil bietet CDC gegenüber timestamp-basierter inkrementeller Synchronisierung?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
Data Lake - Architektur und Ingestion
BigQuery für Data Engineering
PostgreSQL - Administration
Data Modeling für Data Engineering
dbt - Grundlagen
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
ETL- / ELT- / ETLT-Patterns
Apache Airflow - Fortgeschritten
Airflow + dbt - Pipeline-Orchestrierung
PySpark - Verarbeitung im großen Maßstab
Google Pub/Sub - Daten-Streaming
Apache Beam & Dataflow
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Moderne Data Architecture
Monitoring und Observability
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten