Data Engineering

Fivetran & Airbyte - Pozyskiwanie danych

Konektory, sync modes (full, incremental), CDC, schema evolution, transformacje, monitoring

20 pytań z rozmów·
Mid-Level
1

Jaka jest główna różnica między Fivetran a Airbyte pod względem modelu wdrożenia?

Odpowiedź

Fivetran to w pełni zarządzane rozwiązanie SaaS, w którym infrastrukturą zarządza Fivetran, podczas gdy Airbyte oferuje model open-source self-hosted obok oferty cloud. Airbyte pozwala wdrożyć rozwiązanie na własnej infrastrukturze (Docker, Kubernetes), zapewniając większą kontrolę nad danymi i kosztami, podczas gdy Fivetran upraszcza operacje zarządzając całą konserwacją.

2

Czym jest connector w kontekście Fivetran lub Airbyte?

Odpowiedź

Connector to wstępnie skonfigurowany komponent, który wyodrębnia dane z określonego źródła (baza danych, API, SaaS) do miejsca docelowego (data warehouse, data lake). Każdy connector obsługuje uwierzytelnianie, paginację, obsługę błędów i mapowanie schematów dla danego źródła, eliminując potrzebę pisania niestandardowego kodu integracji.

3

Jaka jest różnica między synchronizacją Full Refresh a Incremental?

Odpowiedź

Full Refresh wyodrębnia wszystkie dane ze źródła przy każdej synchronizacji i zastępuje istniejące dane w miejscu docelowym. Incremental przesyła tylko nowe dane lub zmiany od ostatniej synchronizacji, używając kursora (timestamp, ID auto-increment). Incremental jest bardziej wydajny pod względem czasu, kosztów i obciążenia źródła.

4

Czym jest CDC (Change Data Capture) i dlaczego jest używany w narzędziach ingestion?

5

Jaką główną zaletę zapewnia CDC w porównaniu z synchronizacją przyrostową opartą na timestamp?

+17 pytań z rozmów

Opanuj Data Engineering na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo