
Data Lake - Arquitectura e ingesta
Arquitectura Data Lake, zonas (raw/refined/curated), formatos (Parquet, Avro, JSON), ingesta, particionamiento
1¿Qué es un Data Lake?
¿Qué es un Data Lake?
Respuesta
Un Data Lake es un sistema de almacenamiento centralizado capaz de almacenar datos en bruto en su formato nativo, ya sean estructurados, semiestructurados o no estructurados. A diferencia del Data Warehouse que impone un esquema al escribir (schema-on-write), el Data Lake aplica el esquema al leer (schema-on-read), ofreciendo máxima flexibilidad para la exploración y análisis de datos.
2¿Cuál es la diferencia principal entre schema-on-write y schema-on-read?
¿Cuál es la diferencia principal entre schema-on-write y schema-on-read?
Respuesta
Schema-on-write impone la validación y transformación de datos antes de su almacenamiento, garantizando una estructura coherente pero limitando la flexibilidad. Schema-on-read almacena los datos en su formato bruto y aplica el esquema solo durante las lecturas, ofreciendo máxima flexibilidad de ingesta pero requiriendo procesamiento al acceder a los datos.
3¿Cuáles son las tres zonas clásicas de un Data Lake?
¿Cuáles son las tres zonas clásicas de un Data Lake?
Respuesta
La arquitectura estándar de Data Lake comprende tres zonas: Raw (Bronze) para datos brutos no transformados, Refined (Silver) para datos limpios y normalizados, y Curated (Gold) para datos agregados listos para consumo. Esta organización en capas facilita la gobernanza, trazabilidad y calidad de los datos.
¿Cuál es el rol de la zona Raw (Bronze) en un Data Lake?
¿Qué formato de archivo es más adecuado para almacenar datos analíticos voluminosos en un Data Lake?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
BigQuery para Data Engineering
PostgreSQL - Administración
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingesta de datos
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Apache Airflow - Avanzado
Airflow + dbt - Orquestación de pipelines
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis