Question 1

Qu'est-ce que le logging structuré dans le contexte d'un pipeline de données ?

Accepted Answer

Le logging structuré consiste à émettre des logs dans un format parsable (JSON, key-value) plutôt qu'en texte libre. Cela permet de filtrer, rechercher et agréger facilement les logs dans des outils comme Cloud Logging, Elasticsearch ou Datadog. Dans un pipeline de données, cela facilite grandement le debugging en permettant de filtrer par DAG, task_id, run_id ou tout autre contexte métier.

Question 2

Quelle est la différence entre un SLI (Service Level Indicator) et un SLO (Service Level Objective) ?

Accepted Answer

Un SLI est une métrique mesurable qui quantifie un aspect de la qualité du service (ex: taux de succès des jobs, latence du pipeline). Un SLO est un objectif défini sur cette métrique (ex: 99.5% des jobs doivent réussir). Le SLA est l'engagement contractuel envers les clients basé sur les SLO internes. Cette hiérarchie permet de monitorer objectivement la fiabilité et de déclencher des alertes avant de violer les SLA.

Question 3

Qu'est-ce qu'une Expectation dans Great Expectations ?

Accepted Answer

Une Expectation est une assertion déclarative sur les données, comme expect_column_values_to_not_be_null ou expect_column_values_to_be_between. Great Expectations génère automatiquement de la documentation et des résultats de validation exploitables. Ces Expectations sont regroupées en Suites qui définissent le contrat qualité complet d'un dataset.

Monitoring et observabilité

Qu'est-ce que le logging structuré dans le contexte d'un pipeline de données ?

Réponse

Quelle est la différence entre un SLI (Service Level Indicator) et un SLO (Service Level Objective) ?

Réponse

Qu'est-ce qu'une Expectation dans Great Expectations ?

Réponse

Quel est le rôle principal de Soda dans un pipeline de données ?

Qu'est-ce qu'un runbook dans le contexte de la gestion des incidents data ?

Autres sujets d'entretien Data Engineering

Linux & Shell - Fondamentaux

Git & GitHub - Fondamentaux

Python avancé pour le Data Engineering

Docker - Fondamentaux

Google Cloud Platform - Fondamentaux

CI/CD et qualité de code

Docker Compose

FastAPI - APIs de données

SQL avancé pour le Data Engineering

Data Lake - Architecture et ingestion

BigQuery pour le Data Engineering

PostgreSQL - Administration

Data Modeling pour le Data Engineering

Fivetran & Airbyte - Ingestion de données

dbt - Fondamentaux

Apache Airflow - Fondamentaux

Kubernetes - Fondamentaux

dbt - Fonctionnalités avancées

Patterns ETL / ELT / ETLT

Apache Airflow - Avancé

Airflow + dbt - Orchestration de pipelines

PySpark - Traitement à grande échelle

Google Pub/Sub - Streaming de données

Apache Beam & Dataflow

Kubernetes - Production et scaling

Terraform - Infrastructure as Code

Bases de données NoSQL

Architecture Data moderne

IAM et sécurité des données

Maîtrise Data Engineering pour ton prochain entretien