Question 1

¿Qué es el teorema CAP y cuáles son sus tres propiedades?

Accepted Answer

El teorema CAP establece que un sistema distribuido solo puede garantizar dos de tres propiedades simultáneamente: Consistency (todos los nodos ven los mismos datos), Availability (el sistema siempre responde) y Partition tolerance (el sistema sigue funcionando a pesar de particiones de red). Este teorema es fundamental para entender los compromisos arquitectónicos en bases NoSQL.

Question 2

¿Cuál es la diferencia principal entre una base de datos Document (MongoDB) y una base Wide Column (Cassandra)?

Accepted Answer

Las bases Document como MongoDB almacenan documentos JSON/BSON con esquemas flexibles y permiten consultas complejas sobre cualquier campo. Las bases Wide Column como Cassandra organizan los datos en familias de columnas con partition keys, optimizadas para escrituras masivas y lecturas por clave. MongoDB destaca para datos jerárquicos, Cassandra para series temporales de alta velocidad.

Question 3

¿En qué caso de uso se debe preferir Neo4j sobre MongoDB o Cassandra?

Accepted Answer

Neo4j es una base de datos de grafos optimizada para relaciones complejas y multinivel entre entidades. Destaca para redes sociales, sistemas de recomendación, detección de fraude y análisis de dependencias. El lenguaje Cypher permite atravesar millones de relaciones en milisegundos, donde los joins SQL o los lookups NoSQL serían prohibitivamente lentos en rendimiento.

Bases de datos NoSQL

¿Qué es el teorema CAP y cuáles son sus tres propiedades?

Respuesta

¿Cuál es la diferencia principal entre una base de datos Document (MongoDB) y una base Wide Column (Cassandra)?

Respuesta

¿En qué caso de uso se debe preferir Neo4j sobre MongoDB o Cassandra?

Respuesta

¿Qué es una partition key en Cassandra y por qué es crítica para el rendimiento?

¿Cuál es la sintaxis Cypher para encontrar todos los amigos de los amigos de un usuario en Neo4j?

Otros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avanzado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD y calidad de código

Docker Compose

FastAPI - APIs de datos

SQL avanzado para Data Engineering

Data Lake - Arquitectura e ingesta

BigQuery para Data Engineering

PostgreSQL - Administración

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingesta de datos

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Funcionalidades avanzadas

Patrones ETL / ELT / ETLT

Apache Airflow - Avanzado

Airflow + dbt - Orquestación de pipelines

PySpark - Procesamiento a gran escala

Google Pub/Sub - Streaming de datos

Apache Beam & Dataflow

Kubernetes - Producción y escalado

Terraform - Infrastructure as Code

Arquitectura Data moderna

Monitoreo y observabilidad

IAM y seguridad de datos

Domina Data Engineering para tu próxima entrevista