Question 1

Was ist der Hauptunterschied zwischen Fivetran und Airbyte in Bezug auf das Deployment-Modell?

Accepted Answer

Fivetran ist eine vollständig verwaltete SaaS-Lösung, bei der die Infrastruktur von Fivetran verwaltet wird, während Airbyte zusätzlich zu einem Cloud-Angebot ein Open-Source-Self-Hosted-Modell anbietet. Airbyte ermöglicht die Bereitstellung der Lösung auf eigener Infrastruktur (Docker, Kubernetes) und bietet so mehr Kontrolle über Daten und Kosten, während Fivetran den Betrieb durch die Verwaltung aller Wartungsarbeiten vereinfacht.

Question 2

Was ist ein Connector im Kontext von Fivetran oder Airbyte?

Accepted Answer

Ein Connector ist eine vorkonfigurierte Komponente, die Daten aus einer bestimmten Quelle (Datenbank, API, SaaS) zu einem Ziel (Data Warehouse, Data Lake) extrahiert. Jeder Connector handhabt Authentifizierung, Paginierung, Fehlerbehandlung und Schema-Mapping für eine bestimmte Quelle und vermeidet so das Schreiben benutzerdefinierten Integrationscodes.

Question 3

Was ist der Unterschied zwischen Full Refresh- und Incremental-Synchronisierung?

Accepted Answer

Full Refresh extrahiert bei jeder Synchronisierung alle Daten aus der Quelle und ersetzt vorhandene Daten im Ziel. Incremental überträgt nur neue Daten oder Änderungen seit der letzten Synchronisierung mithilfe eines Cursors (Timestamp, Auto-Increment-ID). Incremental ist effizienter hinsichtlich Zeit, Kosten und Last auf der Quelle.

Fivetran & Airbyte - Daten-Ingestion

Was ist der Hauptunterschied zwischen Fivetran und Airbyte in Bezug auf das Deployment-Modell?

Antwort

Was ist ein Connector im Kontext von Fivetran oder Airbyte?

Antwort

Was ist der Unterschied zwischen Full Refresh- und Incremental-Synchronisierung?

Antwort

Was ist CDC (Change Data Capture) und warum wird es in Ingestion-Tools verwendet?

Welchen Hauptvorteil bietet CDC gegenüber timestamp-basierter inkrementeller Synchronisierung?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

Data Lake - Architektur und Ingestion

BigQuery für Data Engineering

PostgreSQL - Administration

Data Modeling für Data Engineering

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Apache Airflow - Fortgeschritten

Airflow + dbt - Pipeline-Orchestrierung

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Moderne Data Architecture

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview