Data Engineering

Fivetran & Airbyte - Daten-Ingestion

Konnektoren, Sync Modes (full, incremental), CDC, Schema Evolution, Transformationen, Monitoring

20 Interview-Fragen·
Mid-Level
1

Was ist der Hauptunterschied zwischen Fivetran und Airbyte in Bezug auf das Deployment-Modell?

Antwort

Fivetran ist eine vollständig verwaltete SaaS-Lösung, bei der die Infrastruktur von Fivetran verwaltet wird, während Airbyte zusätzlich zu einem Cloud-Angebot ein Open-Source-Self-Hosted-Modell anbietet. Airbyte ermöglicht die Bereitstellung der Lösung auf eigener Infrastruktur (Docker, Kubernetes) und bietet so mehr Kontrolle über Daten und Kosten, während Fivetran den Betrieb durch die Verwaltung aller Wartungsarbeiten vereinfacht.

2

Was ist ein Connector im Kontext von Fivetran oder Airbyte?

Antwort

Ein Connector ist eine vorkonfigurierte Komponente, die Daten aus einer bestimmten Quelle (Datenbank, API, SaaS) zu einem Ziel (Data Warehouse, Data Lake) extrahiert. Jeder Connector handhabt Authentifizierung, Paginierung, Fehlerbehandlung und Schema-Mapping für eine bestimmte Quelle und vermeidet so das Schreiben benutzerdefinierten Integrationscodes.

3

Was ist der Unterschied zwischen Full Refresh- und Incremental-Synchronisierung?

Antwort

Full Refresh extrahiert bei jeder Synchronisierung alle Daten aus der Quelle und ersetzt vorhandene Daten im Ziel. Incremental überträgt nur neue Daten oder Änderungen seit der letzten Synchronisierung mithilfe eines Cursors (Timestamp, Auto-Increment-ID). Incremental ist effizienter hinsichtlich Zeit, Kosten und Last auf der Quelle.

4

Was ist CDC (Change Data Capture) und warum wird es in Ingestion-Tools verwendet?

5

Welchen Hauptvorteil bietet CDC gegenüber timestamp-basierter inkrementeller Synchronisierung?

+17 Interview-Fragen

Meistere Data Engineering für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten