Question 1

Яка основна відмінність між Fivetran і Airbyte з точки зору моделі розгортання?

Accepted Answer

Fivetran — це повністю керована SaaS-рішення, де інфраструктурою керує Fivetran, тоді як Airbyte пропонує модель open-source self-hosted на додаток до cloud-пропозиції. Airbyte дозволяє розгорнути рішення на власній інфраструктурі (Docker, Kubernetes), забезпечуючи більше контролю над даними та витратами, тоді як Fivetran спрощує операції, керуючи всім обслуговуванням.

Question 2

Що таке connector в контексті Fivetran або Airbyte?

Accepted Answer

Connector — це попередньо налаштований компонент, який витягує дані з конкретного джерела (база даних, API, SaaS) до місця призначення (data warehouse, data lake). Кожен connector обробляє автентифікацію, пагінацію, обробку помилок та зіставлення схем для заданого джерела, уникаючи необхідності писати власний код інтеграції.

Question 3

Яка різниця між синхронізацією Full Refresh і Incremental?

Accepted Answer

Full Refresh витягує всі дані з джерела при кожній синхронізації та замінює існуючі дані в місці призначення. Incremental передає лише нові дані або зміни з моменту останньої синхронізації, використовуючи курсор (timestamp, ID з автоінкрементом). Incremental ефективніший з точки зору часу, витрат і навантаження на джерело.

Fivetran & Airbyte - Завантаження даних

Яка основна відмінність між Fivetran і Airbyte з точки зору моделі розгортання?

Відповідь

Що таке connector в контексті Fivetran або Airbyte?

Відповідь

Яка різниця між синхронізацією Full Refresh і Incremental?

Відповідь

Що таке CDC (Change Data Capture) і чому він використовується в інструментах ingestion?

Яку основну перевагу надає CDC порівняно з інкрементальною sync на основі timestamp?

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Git & GitHub - Основи

Просунутий Python для Data Engineering

Docker - Основи

Google Cloud Platform - Основи

CI/CD та якість коду

Docker Compose

FastAPI - API даних

Просунутий SQL для Data Engineering

Data Lake - Архітектура та завантаження даних

BigQuery для Data Engineering

PostgreSQL - Адміністрування

Data Modeling для Data Engineering

dbt - Основи

Apache Airflow - Основи

Kubernetes - Основи

dbt - Розширені можливості

Патерни ETL / ELT / ETLT

Apache Airflow - Просунутий

Airflow + dbt - Оркестрація пайплайнів

PySpark - Великомасштабна обробка

Google Pub/Sub - Стрімінг даних

Apache Beam & Dataflow

Kubernetes - Продакшн та масштабування

Terraform - Infrastructure as Code

Бази даних NoSQL

Сучасна Data Architecture

Моніторинг та спостережуваність

IAM та безпека даних

Опануй Data Engineering для наступної співбесіди