Question 1

Czym jest strukturyzowane logowanie w kontekście data pipeline?

Accepted Answer

Strukturyzowane logowanie polega na emitowaniu logów w formacie nadającym się do parsowania (JSON, key-value) zamiast wolnego tekstu. Pozwala to łatwo filtrować, wyszukiwać i agregować logi w narzędziach takich jak Cloud Logging, Elasticsearch lub Datadog. W data pipeline znacznie ułatwia debugowanie, umożliwiając filtrowanie według DAG, task_id, run_id lub dowolnego kontekstu biznesowego.

Question 2

Jaka jest różnica między SLI (Service Level Indicator) a SLO (Service Level Objective)?

Accepted Answer

SLI to mierzalna metryka, która kwantyfikuje aspekt jakości usługi (np. wskaźnik powodzenia zadań, opóźnienie pipeline). SLO to cel zdefiniowany na tej metryce (np. 99,5% zadań musi się powieść). SLA to zobowiązanie umowne wobec klientów oparte na wewnętrznych SLO. Ta hierarchia umożliwia obiektywne monitorowanie niezawodności i wyzwalanie alertów przed naruszeniem SLA.

Question 3

Czym jest Expectation w Great Expectations?

Accepted Answer

Expectation to deklaratywne potwierdzenie dotyczące danych, takie jak expect_column_values_to_not_be_null lub expect_column_values_to_be_between. Great Expectations automatycznie generuje dokumentację i wykonalne wyniki walidacji. Te Expectation są grupowane w Suite, które definiują kompletny kontrakt jakości dla zbioru danych.

Monitorowanie i obserwowalność

Czym jest strukturyzowane logowanie w kontekście data pipeline?

Odpowiedź

Jaka jest różnica między SLI (Service Level Indicator) a SLO (Service Level Objective)?

Odpowiedź

Czym jest Expectation w Great Expectations?

Odpowiedź

Jaka jest główna rola Soda w data pipeline?

Czym jest runbook w kontekście zarządzania incydentami danych?

Inne tematy rekrutacyjne Data Engineering

Linux & Shell - Podstawy

Git & GitHub - Podstawy

Zaawansowany Python dla Data Engineering

Docker - Podstawy

Google Cloud Platform - Podstawy

CI/CD i jakość kodu

Docker Compose

FastAPI - API danych

Zaawansowany SQL dla Data Engineering

Data Lake - Architektura i wprowadzanie danych

BigQuery dla Data Engineering

PostgreSQL - Administracja

Data Modeling dla Data Engineering

Fivetran & Airbyte - Pozyskiwanie danych

dbt - Podstawy

Apache Airflow - Podstawy

Kubernetes - Podstawy

dbt - Zaawansowane funkcje

Wzorce ETL / ELT / ETLT

Apache Airflow - Zaawansowany

Airflow + dbt - Orkiestracja pipeline'ów

PySpark - Przetwarzanie na dużą skalę

Google Pub/Sub - Streaming danych

Apache Beam & Dataflow

Kubernetes - Produkcja i skalowanie

Terraform - Infrastructure as Code

Bazy danych NoSQL

Nowoczesna Data Architecture

IAM i bezpieczeństwo danych

Opanuj Data Engineering na następną rozmowę