
Fivetran & Airbyte - Завантаження даних
Конектори, sync modes (full, incremental), CDC, schema evolution, трансформації, моніторинг
1Яка основна відмінність між Fivetran і Airbyte з точки зору моделі розгортання?
Яка основна відмінність між Fivetran і Airbyte з точки зору моделі розгортання?
Відповідь
Fivetran — це повністю керована SaaS-рішення, де інфраструктурою керує Fivetran, тоді як Airbyte пропонує модель open-source self-hosted на додаток до cloud-пропозиції. Airbyte дозволяє розгорнути рішення на власній інфраструктурі (Docker, Kubernetes), забезпечуючи більше контролю над даними та витратами, тоді як Fivetran спрощує операції, керуючи всім обслуговуванням.
2Що таке connector в контексті Fivetran або Airbyte?
Що таке connector в контексті Fivetran або Airbyte?
Відповідь
Connector — це попередньо налаштований компонент, який витягує дані з конкретного джерела (база даних, API, SaaS) до місця призначення (data warehouse, data lake). Кожен connector обробляє автентифікацію, пагінацію, обробку помилок та зіставлення схем для заданого джерела, уникаючи необхідності писати власний код інтеграції.
3Яка різниця між синхронізацією Full Refresh і Incremental?
Яка різниця між синхронізацією Full Refresh і Incremental?
Відповідь
Full Refresh витягує всі дані з джерела при кожній синхронізації та замінює існуючі дані в місці призначення. Incremental передає лише нові дані або зміни з моменту останньої синхронізації, використовуючи курсор (timestamp, ID з автоінкрементом). Incremental ефективніший з точки зору часу, витрат і навантаження на джерело.
Що таке CDC (Change Data Capture) і чому він використовується в інструментах ingestion?
Яку основну перевагу надає CDC порівняно з інкрементальною sync на основі timestamp?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
dbt - Основи
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Apache Airflow - Просунутий
Airflow + dbt - Оркестрація пайплайнів
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно