Data Engineering

Data Lake - Arquitectura e ingesta

Arquitectura Data Lake, zonas (raw/refined/curated), formatos (Parquet, Avro, JSON), ingesta, particionamiento

20 preguntas de entrevista·
Mid-Level
1

¿Qué es un Data Lake?

Respuesta

Un Data Lake es un sistema de almacenamiento centralizado capaz de almacenar datos en bruto en su formato nativo, ya sean estructurados, semiestructurados o no estructurados. A diferencia del Data Warehouse que impone un esquema al escribir (schema-on-write), el Data Lake aplica el esquema al leer (schema-on-read), ofreciendo máxima flexibilidad para la exploración y análisis de datos.

2

¿Cuál es la diferencia principal entre schema-on-write y schema-on-read?

Respuesta

Schema-on-write impone la validación y transformación de datos antes de su almacenamiento, garantizando una estructura coherente pero limitando la flexibilidad. Schema-on-read almacena los datos en su formato bruto y aplica el esquema solo durante las lecturas, ofreciendo máxima flexibilidad de ingesta pero requiriendo procesamiento al acceder a los datos.

3

¿Cuáles son las tres zonas clásicas de un Data Lake?

Respuesta

La arquitectura estándar de Data Lake comprende tres zonas: Raw (Bronze) para datos brutos no transformados, Refined (Silver) para datos limpios y normalizados, y Curated (Gold) para datos agregados listos para consumo. Esta organización en capas facilita la gobernanza, trazabilidad y calidad de los datos.

4

¿Cuál es el rol de la zona Raw (Bronze) en un Data Lake?

5

¿Qué formato de archivo es más adecuado para almacenar datos analíticos voluminosos en un Data Lake?

+17 preguntas de entrevista

Domina Data Engineering para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis