Question 1

Cos'è il teorema CAP e quali sono le sue tre proprietà?

Accepted Answer

Il teorema CAP afferma che un sistema distribuito può garantire solo due delle tre proprietà simultaneamente: Consistency (tutti i nodi vedono gli stessi dati), Availability (il sistema risponde sempre) e Partition tolerance (il sistema continua a funzionare nonostante partizioni di rete). Questo teorema è fondamentale per comprendere i compromessi architetturali nei database NoSQL.

Question 2

Qual è la differenza principale tra un database Document (MongoDB) e un database Wide Column (Cassandra)?

Accepted Answer

I database Document come MongoDB memorizzano documenti JSON/BSON con schemi flessibili e permettono query complesse su qualsiasi campo. I database Wide Column come Cassandra organizzano i dati in column family con partition key, ottimizzati per scritture massive e letture per chiave. MongoDB eccelle per dati gerarchici, Cassandra per serie temporali ad alta velocità.

Question 3

In quale caso d'uso si dovrebbe preferire Neo4j rispetto a MongoDB o Cassandra?

Accepted Answer

Neo4j è un database graph ottimizzato per relazioni complesse multi-livello tra entità. Eccelle per reti sociali, sistemi di raccomandazione, rilevamento frodi e analisi delle dipendenze. Il linguaggio Cypher permette di attraversare milioni di relazioni in millisecondi, dove i join SQL o i lookup NoSQL sarebbero proibitivi in termini di prestazioni.

Database NoSQL

Cos'è il teorema CAP e quali sono le sue tre proprietà?

Risposta

Qual è la differenza principale tra un database Document (MongoDB) e un database Wide Column (Cassandra)?

Risposta

In quale caso d'uso si dovrebbe preferire Neo4j rispetto a MongoDB o Cassandra?

Risposta

Cos'è una partition key in Cassandra e perché è critica per le prestazioni?

Qual è la sintassi Cypher per trovare tutti gli amici degli amici di un utente in Neo4j?

Altri argomenti di colloquio Data Engineering

Linux & Shell - Fondamenti

Git & GitHub - Fondamenti

Python avanzato per Data Engineering

Docker - Fondamenti

Google Cloud Platform - Fondamenti

CI/CD e qualità del codice

Docker Compose

FastAPI - API per dati

SQL avanzato per il Data Engineering

Data Lake - Architettura e ingestione

BigQuery per il Data Engineering

PostgreSQL - Amministrazione

Data Modeling per Data Engineering

Fivetran & Airbyte - Ingestione dati

dbt - Fondamenti

Apache Airflow - Fondamenti

Kubernetes - Fondamenti

dbt - Funzionalità avanzate

Pattern ETL / ELT / ETLT

Apache Airflow - Avanzato

Airflow + dbt - Orchestrazione delle pipeline

PySpark - Elaborazione su larga scala

Google Pub/Sub - Streaming di dati

Apache Beam & Dataflow

Kubernetes - Produzione e scaling

Terraform - Infrastructure as Code

Data Architecture moderna

Monitoraggio e osservabilità

IAM e sicurezza dei dati

Padroneggia Data Engineering per il tuo prossimo colloquio