Data Engineering

Arquitectura Data moderna

Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, gobernanza, data catalog, lineage

20 preguntas de entrevista·
Senior
1

¿Cuál es la diferencia fundamental entre un Data Lake y un Data Warehouse?

Respuesta

Un Data Lake almacena datos en su formato nativo (crudo) con un schema aplicado en lectura (schema-on-read), permitiendo gran flexibilidad para exploración. Un Data Warehouse impone un schema estructurado en escritura (schema-on-write) con datos transformados y optimizados para analítica. Los Data Lakes priorizan flexibilidad y almacenamiento masivo de bajo costo, mientras los Data Warehouses priorizan el rendimiento de queries analíticas y la calidad de datos.

2

¿Cuál es la principal ventaja de la arquitectura Lakehouse frente a arquitecturas Data Lake y Data Warehouse separadas?

Respuesta

La arquitectura Lakehouse combina lo mejor de ambos mundos: el almacenamiento flexible y económico del Data Lake con capacidades ACID, rendimiento de queries y gobernanza del Data Warehouse. Esto elimina la duplicación de datos entre sistemas, reduce costos y complejidad de sincronización, permitiendo workloads BI y ML en la misma plataforma usando formatos abiertos como Delta Lake, Iceberg o Hudi.

3

¿Qué formato de tabla abierto permite transacciones ACID sobre un Data Lake?

Respuesta

Delta Lake, Apache Iceberg y Apache Hudi son los tres principales formatos de tabla abiertos que habilitan transacciones ACID sobre un Data Lake. Delta Lake, desarrollado por Databricks, usa un transaction log para garantizar atomicidad y consistencia. Iceberg, creado por Netflix, ofrece gestión avanzada de particiones y schema evolution. Hudi, desarrollado por Uber, destaca en escenarios de upsert y CDC. Estos formatos transforman simple almacenamiento de objetos en un Lakehouse con garantías transaccionales.

4

¿Cuál es el principio fundamental del Data Mesh?

5

¿Qué es un Data Contract en el contexto del Data Mesh?

+17 preguntas de entrevista

Domina Data Engineering para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis