Question 1

¿Cuál es la diferencia fundamental entre un Data Lake y un Data Warehouse?

Accepted Answer

Un Data Lake almacena datos en su formato nativo (crudo) con un schema aplicado en lectura (schema-on-read), permitiendo gran flexibilidad para exploración. Un Data Warehouse impone un schema estructurado en escritura (schema-on-write) con datos transformados y optimizados para analítica. Los Data Lakes priorizan flexibilidad y almacenamiento masivo de bajo costo, mientras los Data Warehouses priorizan el rendimiento de queries analíticas y la calidad de datos.

Question 2

¿Cuál es la principal ventaja de la arquitectura Lakehouse frente a arquitecturas Data Lake y Data Warehouse separadas?

Accepted Answer

La arquitectura Lakehouse combina lo mejor de ambos mundos: el almacenamiento flexible y económico del Data Lake con capacidades ACID, rendimiento de queries y gobernanza del Data Warehouse. Esto elimina la duplicación de datos entre sistemas, reduce costos y complejidad de sincronización, permitiendo workloads BI y ML en la misma plataforma usando formatos abiertos como Delta Lake, Iceberg o Hudi.

Question 3

¿Qué formato de tabla abierto permite transacciones ACID sobre un Data Lake?

Accepted Answer

Delta Lake, Apache Iceberg y Apache Hudi son los tres principales formatos de tabla abiertos que habilitan transacciones ACID sobre un Data Lake. Delta Lake, desarrollado por Databricks, usa un transaction log para garantizar atomicidad y consistencia. Iceberg, creado por Netflix, ofrece gestión avanzada de particiones y schema evolution. Hudi, desarrollado por Uber, destaca en escenarios de upsert y CDC. Estos formatos transforman simple almacenamiento de objetos en un Lakehouse con garantías transaccionales.

Arquitectura Data moderna

¿Cuál es la diferencia fundamental entre un Data Lake y un Data Warehouse?

Respuesta

¿Cuál es la principal ventaja de la arquitectura Lakehouse frente a arquitecturas Data Lake y Data Warehouse separadas?

Respuesta

¿Qué formato de tabla abierto permite transacciones ACID sobre un Data Lake?

Respuesta

¿Cuál es el principio fundamental del Data Mesh?

¿Qué es un Data Contract en el contexto del Data Mesh?

Otros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avanzado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD y calidad de código

Docker Compose

FastAPI - APIs de datos

SQL avanzado para Data Engineering

Data Lake - Arquitectura e ingesta

BigQuery para Data Engineering

PostgreSQL - Administración

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingesta de datos

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Funcionalidades avanzadas

Patrones ETL / ELT / ETLT

Apache Airflow - Avanzado

Airflow + dbt - Orquestación de pipelines

PySpark - Procesamiento a gran escala

Google Pub/Sub - Streaming de datos

Apache Beam & Dataflow

Kubernetes - Producción y escalado

Terraform - Infrastructure as Code

Bases de datos NoSQL

Monitoreo y observabilidad

IAM y seguridad de datos

Domina Data Engineering para tu próxima entrevista