
Моніторинг та спостережуваність
Структуроване логування, метрики, alerting, SLA/SLO/SLI, перевірки якості даних, Great Expectations, Soda
1Що таке структуроване логування в контексті data pipeline?
Що таке структуроване логування в контексті data pipeline?
Відповідь
Структуроване логування означає виведення логів у форматі, який можна парсити (JSON, key-value), а не у вигляді вільного тексту. Це дозволяє легко фільтрувати, шукати та агрегувати логи в інструментах, таких як Cloud Logging, Elasticsearch або Datadog. У data pipeline це значно полегшує налагодження, дозволяючи фільтрувати за DAG, task_id, run_id або будь-яким бізнес-контекстом.
2Яка різниця між SLI (Service Level Indicator) та SLO (Service Level Objective)?
Яка різниця між SLI (Service Level Indicator) та SLO (Service Level Objective)?
Відповідь
SLI — це вимірювана метрика, яка кількісно оцінює аспект якості сервісу (наприклад, частоту успіху завдань, затримку pipeline). SLO — це ціль, визначена для цієї метрики (наприклад, 99,5% завдань повинні бути успішними). SLA — це договірне зобов'язання перед клієнтами на основі внутрішніх SLO. Ця ієрархія дозволяє об'єктивно моніторити надійність та запускати сповіщення до порушення SLA.
3Що таке Expectation у Great Expectations?
Що таке Expectation у Great Expectations?
Відповідь
Expectation — це декларативне твердження про дані, наприклад expect_column_values_to_not_be_null або expect_column_values_to_be_between. Great Expectations автоматично генерує документацію та практичні результати валідації. Ці Expectation згруповані в Suite, які визначають повний контракт якості датасету.
Яка основна роль Soda в data pipeline?
Що таке runbook у контексті управління інцидентами даних?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
Fivetran & Airbyte - Завантаження даних
dbt - Основи
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Apache Airflow - Просунутий
Airflow + dbt - Оркестрація пайплайнів
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно