
Monitoring et observabilité
Logging structuré, métriques, alerting, SLA/SLO/SLI, data quality checks, Great Expectations, Soda
1Qu'est-ce que le logging structuré dans le contexte d'un pipeline de données ?
Qu'est-ce que le logging structuré dans le contexte d'un pipeline de données ?
Réponse
Le logging structuré consiste à émettre des logs dans un format parsable (JSON, key-value) plutôt qu'en texte libre. Cela permet de filtrer, rechercher et agréger facilement les logs dans des outils comme Cloud Logging, Elasticsearch ou Datadog. Dans un pipeline de données, cela facilite grandement le debugging en permettant de filtrer par DAG, task_id, run_id ou tout autre contexte métier.
2Quelle est la différence entre un SLI (Service Level Indicator) et un SLO (Service Level Objective) ?
Quelle est la différence entre un SLI (Service Level Indicator) et un SLO (Service Level Objective) ?
Réponse
Un SLI est une métrique mesurable qui quantifie un aspect de la qualité du service (ex: taux de succès des jobs, latence du pipeline). Un SLO est un objectif défini sur cette métrique (ex: 99.5% des jobs doivent réussir). Le SLA est l'engagement contractuel envers les clients basé sur les SLO internes. Cette hiérarchie permet de monitorer objectivement la fiabilité et de déclencher des alertes avant de violer les SLA.
3Qu'est-ce qu'une Expectation dans Great Expectations ?
Qu'est-ce qu'une Expectation dans Great Expectations ?
Réponse
Une Expectation est une assertion déclarative sur les données, comme expect_column_values_to_not_be_null ou expect_column_values_to_be_between. Great Expectations génère automatiquement de la documentation et des résultats de validation exploitables. Ces Expectations sont regroupées en Suites qui définissent le contrat qualité complet d'un dataset.
Quel est le rôle principal de Soda dans un pipeline de données ?
Qu'est-ce qu'un runbook dans le contexte de la gestion des incidents data ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
Data Lake - Architecture et ingestion
BigQuery pour le Data Engineering
PostgreSQL - Administration
Data Modeling pour le Data Engineering
Fivetran & Airbyte - Ingestion de données
dbt - Fondamentaux
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Patterns ETL / ELT / ETLT
Apache Airflow - Avancé
Airflow + dbt - Orchestration de pipelines
PySpark - Traitement à grande échelle
Google Pub/Sub - Streaming de données
Apache Beam & Dataflow
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Architecture Data moderne
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement