Data Engineering

DATA

Percorso completo in Data Engineering che copre l'intera catena di produzione dei dati. Dalla configurazione dell'ambiente con Docker e GCP all'orchestrazione delle pipeline con Airflow e dbt, passando per la creazione di Data Warehouse con BigQuery e PostgreSQL. Impara a gestire il data streaming con PySpark, Pub/Sub e Apache Beam, e a distribuire in produzione con Kubernetes e Terraform. Padroneggia le best practice di CI/CD, monitoraggio e architetture dati moderne.

Cosa imparerai

Ambienti di sviluppo: Linux, Git, GitHub, VS Code, Python avanzato

CI/CD e qualità del codice: Ruff, Pylint, Poetry, GitHub Actions

Containerizzazione con Docker e Docker Compose

API con FastAPI: progettazione, distribuzione, documentazione

Data Lake: ingestione, storage, organizzazione dati grezzi

Data Warehouse con BigQuery: schemi, partizionamento, ottimizzazione

PostgreSQL: installazione, amministrazione, confronto con soluzioni managed

Ingestione dati con Fivetran e Airbyte

Trasformazione con dbt: modelli, test, documentazione, modularità

Orchestrazione con Apache Airflow: DAG, scheduling, monitoraggio

Big Data con PySpark: trasformazioni su larga scala

Data streaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: distribuzione container, scaling, cluster di produzione

Infrastructure as Code con Terraform

Database avanzati: GraphDB, Document DB, Wide Column DB

Logging, monitoraggio e osservabilità delle pipeline

Argomenti chiave da padroneggiare

I concetti più importanti per comprendere questa tecnologia e superare i colloqui

Linux e Shell: comandi essenziali, script bash, permessi, cron job

Git e GitHub: branching, merge, rebase, pull request, workflow CI/CD

Python avanzato: OOP, decorator, generator, context manager, typing, async/await

CI/CD: linting (Ruff, Pylint), packaging (Poetry), test, GitHub Actions, pipeline

Docker: Dockerfile, immagini, container, volumi, reti, multi-stage build

Docker Compose: servizi multi-container, dipendenze, healthcheck, orchestrazione locale

FastAPI: route, modelli Pydantic, dipendenze, middleware, distribuzione

SQL avanzato: window function, CTE, query analitiche, ottimizzazione, indicizzazione

BigQuery: architettura serverless, partizionamento, clustering, costi, UDF, query federate

PostgreSQL: configurazione, replica, indicizzazione (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

Modellazione dati: schema a stella, tabelle fact/dimension, normalizzazione, SCD, data vault

ELT vs ETL vs ETLT: pattern, trade-off, scelte architetturali

Fivetran e Airbyte: connettori, modalità di sincronizzazione, CDC, evoluzione schema

dbt: modelli, source, ref, test, snapshot, modelli incrementali, macro Jinja

Apache Airflow: DAG, operatori, sensori, XCom, connessioni, pool, dipendenze dei task

PySpark: RDD vs DataFrame, trasformazioni, azioni, partizionamento, variabili broadcast

Streaming: Pub/Sub (topic, subscription), Apache Beam (PCollection, trasformazioni, windowing), Dataflow

Kubernetes: pod, deployment, service, ingress, ConfigMap, Secret, Helm, scaling

Terraform: provider, risorse, state, moduli, plan/apply, infrastructure as code

IAM e sicurezza: principio del privilegio minimo, account di servizio, ruoli GCP

Database NoSQL: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

Architettura dati: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contract

Monitoraggio e osservabilità: logging, metriche, alerting, SLA/SLO/SLI, controlli qualità dati

Articoli recenti su Data Engineering

Scopri i nostri ultimi articoli e guide su Data Engineering

Apache Spark 4 nuove funzionalita e Structured Streaming

May 11, 2026

Apache Spark 4 nel 2026: Nuove Funzionalita, Structured Streaming e Domande da Colloquio

Guida completa ad Apache Spark 4 con le novita principali: modalita ANSI SQL, tipo VARIANT, Real-Time Mode, Spark Connect e Declarative Pipelines. Include domande da colloquio di data engineering con risposte dettagliate.

Architettura Apache Kafka Streaming per Data Engineering

April 20, 2026

Apache Kafka per Data Engineer: Streaming, Partizioni e Domande di Colloquio

Apache Kafka per il data engineering: architettura KRaft, strategie di partizionamento, consumer group, CDC con Debezium, exactly-once semantics e domande di colloquio con esempi Kafka 4.x.

Diagramma di confronto architettura data pipeline ETL vs ELT

April 13, 2026

ETL vs ELT nel 2026: Architettura delle Data Pipeline a confronto

Confronto ETL vs ELT per le data pipeline moderne. Differenze architetturali, compromessi su prestazioni e costi, e quando utilizzare ciascun approccio con Snowflake, BigQuery e dbt nel 2026.

Vedi tutti gli articoli su Data Engineering