Question 1

¿Cuál es la principal diferencia entre ETL y ELT?

Accepted Answer

En ETL (Extract-Transform-Load), los datos se transforman en un servidor intermedio antes de cargarse en el destino. En ELT (Extract-Load-Transform), los datos brutos se cargan primero en el destino (generalmente un data warehouse cloud) y luego se transforman directamente allí usando su capacidad de cómputo. ELT se ha vuelto popular con data warehouses cloud como BigQuery, Snowflake o Redshift que ofrecen capacidad de cómputo elástica.

Question 2

¿Cuál es la principal ventaja del enfoque ELT en comparación con el ETL tradicional?

Accepted Answer

El enfoque ELT aprovecha la potencia de cómputo elástica de los data warehouses cloud modernos (BigQuery, Snowflake, Redshift). En lugar de mantener una infraestructura de transformación separada que puede convertirse en un cuello de botella, las transformaciones utilizan directamente las capacidades de escalado del data warehouse. Esto reduce la complejidad operativa y permite procesar volúmenes de datos mucho mayores sin aprovisionamiento manual de recursos.

Question 3

¿Qué es el patrón ETLT y cuándo es relevante?

Accepted Answer

ETLT combina ambos enfoques: primero se realiza una transformación ligera durante la extracción (limpieza, filtrado, anonimización), luego los datos se cargan y se aplican transformaciones más complejas en el data warehouse. Este patrón es útil cuando ciertas transformaciones deben hacerse río arriba por razones de cumplimiento (enmascaramiento de datos sensibles antes de cargarlos), reducción de volumen (filtrado temprano) o normalización de formatos de origen heterogéneos.

Patrones ETL / ELT / ETLT

¿Cuál es la principal diferencia entre ETL y ELT?

Respuesta

¿Cuál es la principal ventaja del enfoque ELT en comparación con el ETL tradicional?

Respuesta

¿Qué es el patrón ETLT y cuándo es relevante?

Respuesta

¿Qué es la idempotencia en el contexto de los pipelines de datos?

¿Cómo implementar la idempotencia al cargar datos en una tabla?

Otros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avanzado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD y calidad de código

Docker Compose

FastAPI - APIs de datos

SQL avanzado para Data Engineering

Data Lake - Arquitectura e ingesta

BigQuery para Data Engineering

PostgreSQL - Administración

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingesta de datos

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Funcionalidades avanzadas

Apache Airflow - Avanzado

Airflow + dbt - Orquestación de pipelines

PySpark - Procesamiento a gran escala

Google Pub/Sub - Streaming de datos

Apache Beam & Dataflow

Kubernetes - Producción y escalado

Terraform - Infrastructure as Code

Bases de datos NoSQL

Arquitectura Data moderna

Monitoreo y observabilidad

IAM y seguridad de datos

Domina Data Engineering para tu próxima entrevista