
Arquitectura Data moderna
Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, gobernanza, data catalog, lineage
1¿Cuál es la diferencia fundamental entre un Data Lake y un Data Warehouse?
¿Cuál es la diferencia fundamental entre un Data Lake y un Data Warehouse?
Respuesta
Un Data Lake almacena datos en su formato nativo (crudo) con un schema aplicado en lectura (schema-on-read), permitiendo gran flexibilidad para exploración. Un Data Warehouse impone un schema estructurado en escritura (schema-on-write) con datos transformados y optimizados para analítica. Los Data Lakes priorizan flexibilidad y almacenamiento masivo de bajo costo, mientras los Data Warehouses priorizan el rendimiento de queries analíticas y la calidad de datos.
2¿Cuál es la principal ventaja de la arquitectura Lakehouse frente a arquitecturas Data Lake y Data Warehouse separadas?
¿Cuál es la principal ventaja de la arquitectura Lakehouse frente a arquitecturas Data Lake y Data Warehouse separadas?
Respuesta
La arquitectura Lakehouse combina lo mejor de ambos mundos: el almacenamiento flexible y económico del Data Lake con capacidades ACID, rendimiento de queries y gobernanza del Data Warehouse. Esto elimina la duplicación de datos entre sistemas, reduce costos y complejidad de sincronización, permitiendo workloads BI y ML en la misma plataforma usando formatos abiertos como Delta Lake, Iceberg o Hudi.
3¿Qué formato de tabla abierto permite transacciones ACID sobre un Data Lake?
¿Qué formato de tabla abierto permite transacciones ACID sobre un Data Lake?
Respuesta
Delta Lake, Apache Iceberg y Apache Hudi son los tres principales formatos de tabla abiertos que habilitan transacciones ACID sobre un Data Lake. Delta Lake, desarrollado por Databricks, usa un transaction log para garantizar atomicidad y consistencia. Iceberg, creado por Netflix, ofrece gestión avanzada de particiones y schema evolution. Hudi, desarrollado por Uber, destaca en escenarios de upsert y CDC. Estos formatos transforman simple almacenamiento de objetos en un Lakehouse con garantías transaccionales.
¿Cuál es el principio fundamental del Data Mesh?
¿Qué es un Data Contract en el contexto del Data Mesh?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
BigQuery para Data Engineering
PostgreSQL - Administración
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingesta de datos
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Apache Airflow - Avanzado
Airflow + dbt - Orquestación de pipelines
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis