Question 1

Що таке структуроване логування в контексті data pipeline?

Accepted Answer

Структуроване логування означає виведення логів у форматі, який можна парсити (JSON, key-value), а не у вигляді вільного тексту. Це дозволяє легко фільтрувати, шукати та агрегувати логи в інструментах, таких як Cloud Logging, Elasticsearch або Datadog. У data pipeline це значно полегшує налагодження, дозволяючи фільтрувати за DAG, task_id, run_id або будь-яким бізнес-контекстом.

Question 2

Яка різниця між SLI (Service Level Indicator) та SLO (Service Level Objective)?

Accepted Answer

SLI — це вимірювана метрика, яка кількісно оцінює аспект якості сервісу (наприклад, частоту успіху завдань, затримку pipeline). SLO — це ціль, визначена для цієї метрики (наприклад, 99,5% завдань повинні бути успішними). SLA — це договірне зобов'язання перед клієнтами на основі внутрішніх SLO. Ця ієрархія дозволяє об'єктивно моніторити надійність та запускати сповіщення до порушення SLA.

Question 3

Що таке Expectation у Great Expectations?

Accepted Answer

Expectation — це декларативне твердження про дані, наприклад expect_column_values_to_not_be_null або expect_column_values_to_be_between. Great Expectations автоматично генерує документацію та практичні результати валідації. Ці Expectation згруповані в Suite, які визначають повний контракт якості датасету.

Моніторинг та спостережуваність

Що таке структуроване логування в контексті data pipeline?

Відповідь

Яка різниця між SLI (Service Level Indicator) та SLO (Service Level Objective)?

Відповідь

Що таке Expectation у Great Expectations?

Відповідь

Яка основна роль Soda в data pipeline?

Що таке runbook у контексті управління інцидентами даних?

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Git & GitHub - Основи

Просунутий Python для Data Engineering

Docker - Основи

Google Cloud Platform - Основи

CI/CD та якість коду

Docker Compose

FastAPI - API даних

Просунутий SQL для Data Engineering

Data Lake - Архітектура та завантаження даних

BigQuery для Data Engineering

PostgreSQL - Адміністрування

Data Modeling для Data Engineering

Fivetran & Airbyte - Завантаження даних

dbt - Основи

Apache Airflow - Основи

Kubernetes - Основи

dbt - Розширені можливості

Патерни ETL / ELT / ETLT

Apache Airflow - Просунутий

Airflow + dbt - Оркестрація пайплайнів

PySpark - Великомасштабна обробка

Google Pub/Sub - Стрімінг даних

Apache Beam & Dataflow

Kubernetes - Продакшн та масштабування

Terraform - Infrastructure as Code

Бази даних NoSQL

Сучасна Data Architecture

IAM та безпека даних

Опануй Data Engineering для наступної співбесіди