
Monitoring und Observability
Strukturiertes Logging, Metriken, Alerting, SLA/SLO/SLI, Data Quality Checks, Great Expectations, Soda
1Was ist strukturiertes Logging im Kontext einer Data Pipeline?
Was ist strukturiertes Logging im Kontext einer Data Pipeline?
Antwort
Strukturiertes Logging bedeutet, Logs in einem parsbaren Format (JSON, Key-Value) statt als Freitext auszugeben. Dies ermöglicht einfaches Filtern, Suchen und Aggregieren von Logs in Tools wie Cloud Logging, Elasticsearch oder Datadog. In einer Data Pipeline erleichtert dies das Debugging erheblich, da nach DAG, task_id, run_id oder jedem geschäftlichen Kontext gefiltert werden kann.
2Was ist der Unterschied zwischen einem SLI (Service Level Indicator) und einem SLO (Service Level Objective)?
Was ist der Unterschied zwischen einem SLI (Service Level Indicator) und einem SLO (Service Level Objective)?
Antwort
Ein SLI ist eine messbare Metrik, die einen Aspekt der Servicequalität quantifiziert (z.B. Job-Erfolgsrate, Pipeline-Latenz). Ein SLO ist ein auf dieser Metrik definiertes Ziel (z.B. 99,5% der Jobs müssen erfolgreich sein). Das SLA ist die vertragliche Verpflichtung gegenüber Kunden basierend auf internen SLOs. Diese Hierarchie ermöglicht objektives Zuverlässigkeits-Monitoring und das Auslösen von Alerts vor SLA-Verletzungen.
3Was ist eine Expectation in Great Expectations?
Was ist eine Expectation in Great Expectations?
Antwort
Eine Expectation ist eine deklarative Assertion über Daten, wie expect_column_values_to_not_be_null oder expect_column_values_to_be_between. Great Expectations generiert automatisch Dokumentation und umsetzbare Validierungsergebnisse. Diese Expectations werden in Suites gruppiert, die den vollständigen Qualitätsvertrag eines Datasets definieren.
Was ist die Hauptrolle von Soda in einer Data Pipeline?
Was ist ein Runbook im Kontext des Daten-Incident-Managements?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
Data Lake - Architektur und Ingestion
BigQuery für Data Engineering
PostgreSQL - Administration
Data Modeling für Data Engineering
Fivetran & Airbyte - Daten-Ingestion
dbt - Grundlagen
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
ETL- / ELT- / ETLT-Patterns
Apache Airflow - Fortgeschritten
Airflow + dbt - Pipeline-Orchestrierung
PySpark - Verarbeitung im großen Maßstab
Google Pub/Sub - Daten-Streaming
Apache Beam & Dataflow
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Moderne Data Architecture
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten