
Monitoring en observability
Structured logging, metrics, alerting, SLA/SLO/SLI, data quality checks, Great Expectations, Soda
1Wat is structured logging in de context van een data pipeline?
Wat is structured logging in de context van een data pipeline?
Antwoord
Structured logging betekent het uitsturen van logs in een parseerbaar formaat (JSON, key-value) in plaats van vrije tekst. Dit maakt het eenvoudig om logs te filteren, doorzoeken en aggregeren in tools zoals Cloud Logging, Elasticsearch of Datadog. In een data pipeline vergemakkelijkt dit het debuggen aanzienlijk door filtering op DAG, task_id, run_id of elke bedrijfscontext mogelijk te maken.
2Wat is het verschil tussen een SLI (Service Level Indicator) en een SLO (Service Level Objective)?
Wat is het verschil tussen een SLI (Service Level Indicator) en een SLO (Service Level Objective)?
Antwoord
Een SLI is een meetbare metric die een aspect van servicekwaliteit kwantificeert (bijv. job-succespercentage, pipeline-latency). Een SLO is een doel gedefinieerd op die metric (bijv. 99,5% van de jobs moet slagen). De SLA is de contractuele verbintenis aan klanten gebaseerd op interne SLO's. Deze hiërarchie maakt objectieve betrouwbaarheidsmonitoring mogelijk en het triggeren van alerts voordat SLA's worden geschonden.
3Wat is een Expectation in Great Expectations?
Wat is een Expectation in Great Expectations?
Antwoord
Een Expectation is een declaratieve assertie over data, zoals expect_column_values_to_not_be_null of expect_column_values_to_be_between. Great Expectations genereert automatisch documentatie en actiebare validatieresultaten. Deze Expectations worden gegroepeerd in Suites die het complete kwaliteitscontract van een dataset definiëren.
Wat is de hoofdrol van Soda in een data pipeline?
Wat is een runbook in de context van data-incidentbeheer?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
Data Lake - Architectuur en ingestie
BigQuery voor Data Engineering
PostgreSQL - Administratie
Data Modeling voor Data Engineering
Fivetran & Airbyte - Data-ingestie
dbt - Grondbeginselen
Apache Airflow - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
ETL- / ELT- / ETLT-patronen
Apache Airflow - Gevorderd
Airflow + dbt - Pipeline-orkestratie
PySpark - Grootschalige verwerking
Google Pub/Sub - Datastreaming
Apache Beam & Dataflow
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Moderne Data Architecture
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis