Data Engineering

Fivetran & Airbyte - Завантаження даних

Конектори, sync modes (full, incremental), CDC, schema evolution, трансформації, моніторинг

20 питань зі співбесід·
Mid-Level
1

Яка основна відмінність між Fivetran і Airbyte з точки зору моделі розгортання?

Відповідь

Fivetran — це повністю керована SaaS-рішення, де інфраструктурою керує Fivetran, тоді як Airbyte пропонує модель open-source self-hosted на додаток до cloud-пропозиції. Airbyte дозволяє розгорнути рішення на власній інфраструктурі (Docker, Kubernetes), забезпечуючи більше контролю над даними та витратами, тоді як Fivetran спрощує операції, керуючи всім обслуговуванням.

2

Що таке connector в контексті Fivetran або Airbyte?

Відповідь

Connector — це попередньо налаштований компонент, який витягує дані з конкретного джерела (база даних, API, SaaS) до місця призначення (data warehouse, data lake). Кожен connector обробляє автентифікацію, пагінацію, обробку помилок та зіставлення схем для заданого джерела, уникаючи необхідності писати власний код інтеграції.

3

Яка різниця між синхронізацією Full Refresh і Incremental?

Відповідь

Full Refresh витягує всі дані з джерела при кожній синхронізації та замінює існуючі дані в місці призначення. Incremental передає лише нові дані або зміни з моменту останньої синхронізації, використовуючи курсор (timestamp, ID з автоінкрементом). Incremental ефективніший з точки зору часу, витрат і навантаження на джерело.

4

Що таке CDC (Change Data Capture) і чому він використовується в інструментах ingestion?

5

Яку основну перевагу надає CDC порівняно з інкрементальною sync на основі timestamp?

+17 питань зі співбесід

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Junior
20 запитань

Git & GitHub - Основи

Junior
20 запитань

Просунутий Python для Data Engineering

Junior
25 запитань

Docker - Основи

Junior
25 запитань

Google Cloud Platform - Основи

Junior
20 запитань

CI/CD та якість коду

Mid-Level
20 запитань

Docker Compose

Mid-Level
20 запитань

FastAPI - API даних

Mid-Level
20 запитань

Просунутий SQL для Data Engineering

Mid-Level
20 запитань

Data Lake - Архітектура та завантаження даних

Mid-Level
20 запитань

BigQuery для Data Engineering

Mid-Level
20 запитань

PostgreSQL - Адміністрування

Mid-Level
20 запитань

Data Modeling для Data Engineering

Mid-Level
20 запитань

dbt - Основи

Mid-Level
20 запитань

Apache Airflow - Основи

Mid-Level
20 запитань

Kubernetes - Основи

Mid-Level
20 запитань

dbt - Розширені можливості

Senior
20 запитань

Патерни ETL / ELT / ETLT

Senior
20 запитань

Apache Airflow - Просунутий

Senior
20 запитань

Airflow + dbt - Оркестрація пайплайнів

Senior
20 запитань

PySpark - Великомасштабна обробка

Senior
20 запитань

Google Pub/Sub - Стрімінг даних

Senior
20 запитань

Apache Beam & Dataflow

Senior
20 запитань

Kubernetes - Продакшн та масштабування

Senior
20 запитань

Terraform - Infrastructure as Code

Senior
20 запитань

Бази даних NoSQL

Senior
20 запитань

Сучасна Data Architecture

Senior
20 запитань

Моніторинг та спостережуваність

Senior
20 запитань

IAM та безпека даних

Senior
20 запитань

Опануй Data Engineering для наступної співбесіди

Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.

Почни безкоштовно