Question 1

¿Qué es un Data Lake?

Accepted Answer

Un Data Lake es un sistema de almacenamiento centralizado capaz de almacenar datos en bruto en su formato nativo, ya sean estructurados, semiestructurados o no estructurados. A diferencia del Data Warehouse que impone un esquema al escribir (schema-on-write), el Data Lake aplica el esquema al leer (schema-on-read), ofreciendo máxima flexibilidad para la exploración y análisis de datos.

Question 2

¿Cuál es la diferencia principal entre schema-on-write y schema-on-read?

Accepted Answer

Schema-on-write impone la validación y transformación de datos antes de su almacenamiento, garantizando una estructura coherente pero limitando la flexibilidad. Schema-on-read almacena los datos en su formato bruto y aplica el esquema solo durante las lecturas, ofreciendo máxima flexibilidad de ingesta pero requiriendo procesamiento al acceder a los datos.

Question 3

¿Cuáles son las tres zonas clásicas de un Data Lake?

Accepted Answer

La arquitectura estándar de Data Lake comprende tres zonas: Raw (Bronze) para datos brutos no transformados, Refined (Silver) para datos limpios y normalizados, y Curated (Gold) para datos agregados listos para consumo. Esta organización en capas facilita la gobernanza, trazabilidad y calidad de los datos.

Data Lake - Arquitectura e ingesta

¿Qué es un Data Lake?

Respuesta

¿Cuál es la diferencia principal entre schema-on-write y schema-on-read?

Respuesta

¿Cuáles son las tres zonas clásicas de un Data Lake?

Respuesta

¿Cuál es el rol de la zona Raw (Bronze) en un Data Lake?

¿Qué formato de archivo es más adecuado para almacenar datos analíticos voluminosos en un Data Lake?

Otros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avanzado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD y calidad de código

Docker Compose

FastAPI - APIs de datos

SQL avanzado para Data Engineering

BigQuery para Data Engineering

PostgreSQL - Administración

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingesta de datos

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Funcionalidades avanzadas

Patrones ETL / ELT / ETLT

Apache Airflow - Avanzado

Airflow + dbt - Orquestación de pipelines

PySpark - Procesamiento a gran escala

Google Pub/Sub - Streaming de datos

Apache Beam & Dataflow

Kubernetes - Producción y escalado

Terraform - Infrastructure as Code

Bases de datos NoSQL

Arquitectura Data moderna

Monitoreo y observabilidad

IAM y seguridad de datos

Domina Data Engineering para tu próxima entrevista