Question 1

Wat is structured logging in de context van een data pipeline?

Accepted Answer

Structured logging betekent het uitsturen van logs in een parseerbaar formaat (JSON, key-value) in plaats van vrije tekst. Dit maakt het eenvoudig om logs te filteren, doorzoeken en aggregeren in tools zoals Cloud Logging, Elasticsearch of Datadog. In een data pipeline vergemakkelijkt dit het debuggen aanzienlijk door filtering op DAG, task_id, run_id of elke bedrijfscontext mogelijk te maken.

Question 2

Wat is het verschil tussen een SLI (Service Level Indicator) en een SLO (Service Level Objective)?

Accepted Answer

Een SLI is een meetbare metric die een aspect van servicekwaliteit kwantificeert (bijv. job-succespercentage, pipeline-latency). Een SLO is een doel gedefinieerd op die metric (bijv. 99,5% van de jobs moet slagen). De SLA is de contractuele verbintenis aan klanten gebaseerd op interne SLO's. Deze hiërarchie maakt objectieve betrouwbaarheidsmonitoring mogelijk en het triggeren van alerts voordat SLA's worden geschonden.

Question 3

Wat is een Expectation in Great Expectations?

Accepted Answer

Een Expectation is een declaratieve assertie over data, zoals expect_column_values_to_not_be_null of expect_column_values_to_be_between. Great Expectations genereert automatisch documentatie en actiebare validatieresultaten. Deze Expectations worden gegroepeerd in Suites die het complete kwaliteitscontract van een dataset definiëren.

Monitoring en observability

Wat is structured logging in de context van een data pipeline?

Antwoord

Wat is het verschil tussen een SLI (Service Level Indicator) en een SLO (Service Level Objective)?

Antwoord

Wat is een Expectation in Great Expectations?

Antwoord

Wat is de hoofdrol van Soda in een data pipeline?

Wat is een runbook in de context van data-incidentbeheer?

Andere Data Engineering-sollicitatieonderwerpen

Linux & Shell - Grondbeginselen

Git & GitHub - Grondbeginselen

Geavanceerde Python voor Data Engineering

Docker - Basisbeginselen

Google Cloud Platform - Fundamenten

CI/CD en codekwaliteit

Docker Compose

FastAPI - Data-API's

Geavanceerde SQL voor Data Engineering

Data Lake - Architectuur en ingestie

BigQuery voor Data Engineering

PostgreSQL - Administratie

Data Modeling voor Data Engineering

Fivetran & Airbyte - Data-ingestie

dbt - Grondbeginselen

Apache Airflow - Grondbeginselen

Kubernetes - Fundamenten

dbt - Geavanceerde functies

ETL- / ELT- / ETLT-patronen

Apache Airflow - Gevorderd

Airflow + dbt - Pipeline-orkestratie

PySpark - Grootschalige verwerking

Google Pub/Sub - Datastreaming

Apache Beam & Dataflow

Kubernetes - Productie en scaling

Terraform - Infrastructure as Code

NoSQL-databases

Moderne Data Architecture

IAM en gegevensbeveiliging

Beheers Data Engineering voor je volgende gesprek