Question 1

Was ist strukturiertes Logging im Kontext einer Data Pipeline?

Accepted Answer

Strukturiertes Logging bedeutet, Logs in einem parsbaren Format (JSON, Key-Value) statt als Freitext auszugeben. Dies ermöglicht einfaches Filtern, Suchen und Aggregieren von Logs in Tools wie Cloud Logging, Elasticsearch oder Datadog. In einer Data Pipeline erleichtert dies das Debugging erheblich, da nach DAG, task_id, run_id oder jedem geschäftlichen Kontext gefiltert werden kann.

Question 2

Was ist der Unterschied zwischen einem SLI (Service Level Indicator) und einem SLO (Service Level Objective)?

Accepted Answer

Ein SLI ist eine messbare Metrik, die einen Aspekt der Servicequalität quantifiziert (z.B. Job-Erfolgsrate, Pipeline-Latenz). Ein SLO ist ein auf dieser Metrik definiertes Ziel (z.B. 99,5% der Jobs müssen erfolgreich sein). Das SLA ist die vertragliche Verpflichtung gegenüber Kunden basierend auf internen SLOs. Diese Hierarchie ermöglicht objektives Zuverlässigkeits-Monitoring und das Auslösen von Alerts vor SLA-Verletzungen.

Question 3

Was ist eine Expectation in Great Expectations?

Accepted Answer

Eine Expectation ist eine deklarative Assertion über Daten, wie expect_column_values_to_not_be_null oder expect_column_values_to_be_between. Great Expectations generiert automatisch Dokumentation und umsetzbare Validierungsergebnisse. Diese Expectations werden in Suites gruppiert, die den vollständigen Qualitätsvertrag eines Datasets definieren.

Monitoring und Observability

Was ist strukturiertes Logging im Kontext einer Data Pipeline?

Antwort

Was ist der Unterschied zwischen einem SLI (Service Level Indicator) und einem SLO (Service Level Objective)?

Antwort

Was ist eine Expectation in Great Expectations?

Antwort

Was ist die Hauptrolle von Soda in einer Data Pipeline?

Was ist ein Runbook im Kontext des Daten-Incident-Managements?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

Data Lake - Architektur und Ingestion

BigQuery für Data Engineering

PostgreSQL - Administration

Data Modeling für Data Engineering

Fivetran & Airbyte - Daten-Ingestion

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Apache Airflow - Fortgeschritten

Airflow + dbt - Pipeline-Orchestrierung

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Moderne Data Architecture

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview