
Monitoraggio e osservabilità
Logging strutturato, metriche, alerting, SLA/SLO/SLI, data quality checks, Great Expectations, Soda
1Cos'è il logging strutturato nel contesto di una data pipeline?
Cos'è il logging strutturato nel contesto di una data pipeline?
Risposta
Il logging strutturato consiste nell'emettere log in un formato parsabile (JSON, key-value) piuttosto che in testo libero. Questo consente di filtrare, cercare e aggregare facilmente i log in strumenti come Cloud Logging, Elasticsearch o Datadog. In una data pipeline, facilita notevolmente il debugging permettendo di filtrare per DAG, task_id, run_id o qualsiasi contesto di business.
2Qual è la differenza tra un SLI (Service Level Indicator) e un SLO (Service Level Objective)?
Qual è la differenza tra un SLI (Service Level Indicator) e un SLO (Service Level Objective)?
Risposta
Un SLI è una metrica misurabile che quantifica un aspetto della qualità del servizio (es. tasso di successo dei job, latenza della pipeline). Un SLO è un obiettivo definito su quella metrica (es. il 99,5% dei job deve avere successo). L'SLA è l'impegno contrattuale verso i clienti basato sugli SLO interni. Questa gerarchia consente il monitoraggio oggettivo dell'affidabilità e l'attivazione di alert prima di violare gli SLA.
3Cos'è un'Expectation in Great Expectations?
Cos'è un'Expectation in Great Expectations?
Risposta
Un'Expectation è un'asserzione dichiarativa sui dati, come expect_column_values_to_not_be_null o expect_column_values_to_be_between. Great Expectations genera automaticamente documentazione e risultati di validazione attuabili. Queste Expectation sono raggruppate in Suite che definiscono il contratto di qualità completo per un dataset.
Qual è il ruolo principale di Soda in una data pipeline?
Cos'è un runbook nel contesto della gestione degli incidenti sui dati?
+17 domande da colloquio
Altri argomenti di colloquio Data Engineering
Linux & Shell - Fondamenti
Git & GitHub - Fondamenti
Python avanzato per Data Engineering
Docker - Fondamenti
Google Cloud Platform - Fondamenti
CI/CD e qualità del codice
Docker Compose
FastAPI - API per dati
SQL avanzato per il Data Engineering
Data Lake - Architettura e ingestione
BigQuery per il Data Engineering
PostgreSQL - Amministrazione
Data Modeling per Data Engineering
Fivetran & Airbyte - Ingestione dati
dbt - Fondamenti
Apache Airflow - Fondamenti
Kubernetes - Fondamenti
dbt - Funzionalità avanzate
Pattern ETL / ELT / ETLT
Apache Airflow - Avanzato
Airflow + dbt - Orchestrazione delle pipeline
PySpark - Elaborazione su larga scala
Google Pub/Sub - Streaming di dati
Apache Beam & Dataflow
Kubernetes - Produzione e scaling
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture moderna
IAM e sicurezza dei dati
Padroneggia Data Engineering per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis