
Patrones ETL / ELT / ETLT
ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, idempotencia, manejo de errores, dead letter queues, calidad de datos, lineage
1¿Cuál es la principal diferencia entre ETL y ELT?
¿Cuál es la principal diferencia entre ETL y ELT?
Respuesta
En ETL (Extract-Transform-Load), los datos se transforman en un servidor intermedio antes de cargarse en el destino. En ELT (Extract-Load-Transform), los datos brutos se cargan primero en el destino (generalmente un data warehouse cloud) y luego se transforman directamente allí usando su capacidad de cómputo. ELT se ha vuelto popular con data warehouses cloud como BigQuery, Snowflake o Redshift que ofrecen capacidad de cómputo elástica.
2¿Cuál es la principal ventaja del enfoque ELT en comparación con el ETL tradicional?
¿Cuál es la principal ventaja del enfoque ELT en comparación con el ETL tradicional?
Respuesta
El enfoque ELT aprovecha la potencia de cómputo elástica de los data warehouses cloud modernos (BigQuery, Snowflake, Redshift). En lugar de mantener una infraestructura de transformación separada que puede convertirse en un cuello de botella, las transformaciones utilizan directamente las capacidades de escalado del data warehouse. Esto reduce la complejidad operativa y permite procesar volúmenes de datos mucho mayores sin aprovisionamiento manual de recursos.
3¿Qué es el patrón ETLT y cuándo es relevante?
¿Qué es el patrón ETLT y cuándo es relevante?
Respuesta
ETLT combina ambos enfoques: primero se realiza una transformación ligera durante la extracción (limpieza, filtrado, anonimización), luego los datos se cargan y se aplican transformaciones más complejas en el data warehouse. Este patrón es útil cuando ciertas transformaciones deben hacerse río arriba por razones de cumplimiento (enmascaramiento de datos sensibles antes de cargarlos), reducción de volumen (filtrado temprano) o normalización de formatos de origen heterogéneos.
¿Qué es la idempotencia en el contexto de los pipelines de datos?
¿Cómo implementar la idempotencia al cargar datos en una tabla?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
BigQuery para Data Engineering
PostgreSQL - Administración
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingesta de datos
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Apache Airflow - Avanzado
Airflow + dbt - Orquestación de pipelines
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis