
Monitorowanie i obserwowalność
Strukturyzowane logowanie, metryki, alerting, SLA/SLO/SLI, kontrole jakości danych, Great Expectations, Soda
1Czym jest strukturyzowane logowanie w kontekście data pipeline?
Czym jest strukturyzowane logowanie w kontekście data pipeline?
Odpowiedź
Strukturyzowane logowanie polega na emitowaniu logów w formacie nadającym się do parsowania (JSON, key-value) zamiast wolnego tekstu. Pozwala to łatwo filtrować, wyszukiwać i agregować logi w narzędziach takich jak Cloud Logging, Elasticsearch lub Datadog. W data pipeline znacznie ułatwia debugowanie, umożliwiając filtrowanie według DAG, task_id, run_id lub dowolnego kontekstu biznesowego.
2Jaka jest różnica między SLI (Service Level Indicator) a SLO (Service Level Objective)?
Jaka jest różnica między SLI (Service Level Indicator) a SLO (Service Level Objective)?
Odpowiedź
SLI to mierzalna metryka, która kwantyfikuje aspekt jakości usługi (np. wskaźnik powodzenia zadań, opóźnienie pipeline). SLO to cel zdefiniowany na tej metryce (np. 99,5% zadań musi się powieść). SLA to zobowiązanie umowne wobec klientów oparte na wewnętrznych SLO. Ta hierarchia umożliwia obiektywne monitorowanie niezawodności i wyzwalanie alertów przed naruszeniem SLA.
3Czym jest Expectation w Great Expectations?
Czym jest Expectation w Great Expectations?
Odpowiedź
Expectation to deklaratywne potwierdzenie dotyczące danych, takie jak expect_column_values_to_not_be_null lub expect_column_values_to_be_between. Great Expectations automatycznie generuje dokumentację i wykonalne wyniki walidacji. Te Expectation są grupowane w Suite, które definiują kompletny kontrakt jakości dla zbioru danych.
Jaka jest główna rola Soda w data pipeline?
Czym jest runbook w kontekście zarządzania incydentami danych?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Engineering
Linux & Shell - Podstawy
Git & GitHub - Podstawy
Zaawansowany Python dla Data Engineering
Docker - Podstawy
Google Cloud Platform - Podstawy
CI/CD i jakość kodu
Docker Compose
FastAPI - API danych
Zaawansowany SQL dla Data Engineering
Data Lake - Architektura i wprowadzanie danych
BigQuery dla Data Engineering
PostgreSQL - Administracja
Data Modeling dla Data Engineering
Fivetran & Airbyte - Pozyskiwanie danych
dbt - Podstawy
Apache Airflow - Podstawy
Kubernetes - Podstawy
dbt - Zaawansowane funkcje
Wzorce ETL / ELT / ETLT
Apache Airflow - Zaawansowany
Airflow + dbt - Orkiestracja pipeline'ów
PySpark - Przetwarzanie na dużą skalę
Google Pub/Sub - Streaming danych
Apache Beam & Dataflow
Kubernetes - Produkcja i skalowanie
Terraform - Infrastructure as Code
Bazy danych NoSQL
Nowoczesna Data Architecture
IAM i bezpieczeństwo danych
Opanuj Data Engineering na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo