Question 1

Cos'è il logging strutturato nel contesto di una data pipeline?

Accepted Answer

Il logging strutturato consiste nell'emettere log in un formato parsabile (JSON, key-value) piuttosto che in testo libero. Questo consente di filtrare, cercare e aggregare facilmente i log in strumenti come Cloud Logging, Elasticsearch o Datadog. In una data pipeline, facilita notevolmente il debugging permettendo di filtrare per DAG, task_id, run_id o qualsiasi contesto di business.

Question 2

Qual è la differenza tra un SLI (Service Level Indicator) e un SLO (Service Level Objective)?

Accepted Answer

Un SLI è una metrica misurabile che quantifica un aspetto della qualità del servizio (es. tasso di successo dei job, latenza della pipeline). Un SLO è un obiettivo definito su quella metrica (es. il 99,5% dei job deve avere successo). L'SLA è l'impegno contrattuale verso i clienti basato sugli SLO interni. Questa gerarchia consente il monitoraggio oggettivo dell'affidabilità e l'attivazione di alert prima di violare gli SLA.

Question 3

Cos'è un'Expectation in Great Expectations?

Accepted Answer

Un'Expectation è un'asserzione dichiarativa sui dati, come expect_column_values_to_not_be_null o expect_column_values_to_be_between. Great Expectations genera automaticamente documentazione e risultati di validazione attuabili. Queste Expectation sono raggruppate in Suite che definiscono il contratto di qualità completo per un dataset.

Monitoraggio e osservabilità

Cos'è il logging strutturato nel contesto di una data pipeline?

Risposta

Qual è la differenza tra un SLI (Service Level Indicator) e un SLO (Service Level Objective)?

Risposta

Cos'è un'Expectation in Great Expectations?

Risposta

Qual è il ruolo principale di Soda in una data pipeline?

Cos'è un runbook nel contesto della gestione degli incidenti sui dati?

Altri argomenti di colloquio Data Engineering

Linux & Shell - Fondamenti

Git & GitHub - Fondamenti

Python avanzato per Data Engineering

Docker - Fondamenti

Google Cloud Platform - Fondamenti

CI/CD e qualità del codice

Docker Compose

FastAPI - API per dati

SQL avanzato per il Data Engineering

Data Lake - Architettura e ingestione

BigQuery per il Data Engineering

PostgreSQL - Amministrazione

Data Modeling per Data Engineering

Fivetran & Airbyte - Ingestione dati

dbt - Fondamenti

Apache Airflow - Fondamenti

Kubernetes - Fondamenti

dbt - Funzionalità avanzate

Pattern ETL / ELT / ETLT

Apache Airflow - Avanzato

Airflow + dbt - Orchestrazione delle pipeline

PySpark - Elaborazione su larga scala

Google Pub/Sub - Streaming di dati

Apache Beam & Dataflow

Kubernetes - Produzione e scaling

Terraform - Infrastructure as Code

Database NoSQL

Data Architecture moderna

IAM e sicurezza dei dati

Padroneggia Data Engineering per il tuo prossimo colloquio