Data Engineering

Моніторинг та спостережуваність

Структуроване логування, метрики, alerting, SLA/SLO/SLI, перевірки якості даних, Great Expectations, Soda

20 питань зі співбесід·
Senior
1

Що таке структуроване логування в контексті data pipeline?

Відповідь

Структуроване логування означає виведення логів у форматі, який можна парсити (JSON, key-value), а не у вигляді вільного тексту. Це дозволяє легко фільтрувати, шукати та агрегувати логи в інструментах, таких як Cloud Logging, Elasticsearch або Datadog. У data pipeline це значно полегшує налагодження, дозволяючи фільтрувати за DAG, task_id, run_id або будь-яким бізнес-контекстом.

2

Яка різниця між SLI (Service Level Indicator) та SLO (Service Level Objective)?

Відповідь

SLI — це вимірювана метрика, яка кількісно оцінює аспект якості сервісу (наприклад, частоту успіху завдань, затримку pipeline). SLO — це ціль, визначена для цієї метрики (наприклад, 99,5% завдань повинні бути успішними). SLA — це договірне зобов'язання перед клієнтами на основі внутрішніх SLO. Ця ієрархія дозволяє об'єктивно моніторити надійність та запускати сповіщення до порушення SLA.

3

Що таке Expectation у Great Expectations?

Відповідь

Expectation — це декларативне твердження про дані, наприклад expect_column_values_to_not_be_null або expect_column_values_to_be_between. Great Expectations автоматично генерує документацію та практичні результати валідації. Ці Expectation згруповані в Suite, які визначають повний контракт якості датасету.

4

Яка основна роль Soda в data pipeline?

5

Що таке runbook у контексті управління інцидентами даних?

+17 питань зі співбесід

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Junior
20 запитань

Git & GitHub - Основи

Junior
20 запитань

Просунутий Python для Data Engineering

Junior
25 запитань

Docker - Основи

Junior
25 запитань

Google Cloud Platform - Основи

Junior
20 запитань

CI/CD та якість коду

Mid-Level
20 запитань

Docker Compose

Mid-Level
20 запитань

FastAPI - API даних

Mid-Level
20 запитань

Просунутий SQL для Data Engineering

Mid-Level
20 запитань

Data Lake - Архітектура та завантаження даних

Mid-Level
20 запитань

BigQuery для Data Engineering

Mid-Level
20 запитань

PostgreSQL - Адміністрування

Mid-Level
20 запитань

Data Modeling для Data Engineering

Mid-Level
20 запитань

Fivetran & Airbyte - Завантаження даних

Mid-Level
20 запитань

dbt - Основи

Mid-Level
20 запитань

Apache Airflow - Основи

Mid-Level
20 запитань

Kubernetes - Основи

Mid-Level
20 запитань

dbt - Розширені можливості

Senior
20 запитань

Патерни ETL / ELT / ETLT

Senior
20 запитань

Apache Airflow - Просунутий

Senior
20 запитань

Airflow + dbt - Оркестрація пайплайнів

Senior
20 запитань

PySpark - Великомасштабна обробка

Senior
20 запитань

Google Pub/Sub - Стрімінг даних

Senior
20 запитань

Apache Beam & Dataflow

Senior
20 запитань

Kubernetes - Продакшн та масштабування

Senior
20 запитань

Terraform - Infrastructure as Code

Senior
20 запитань

Бази даних NoSQL

Senior
20 запитань

Сучасна Data Architecture

Senior
20 запитань

IAM та безпека даних

Senior
20 запитань

Опануй Data Engineering для наступної співбесіди

Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.

Почни безкоштовно