Las entrevistas para roles de ingeniería de datos en 2026 evalúan competencias técnicas profundas que van desde optimización de consultas SQL hasta diseño de pipelines distribuidos en tiempo real. Los equipos de ingeniería buscan profesionales capaces de construir infraestructuras escalables que procesen petabytes de datos, garanticen calidad y gobernanza, y entreguen valor de negocio mediante arquitecturas modernas como lakehouse y data mesh.

Esta guía presenta 25 preguntas técnicas avanzadas que reflejan los desafíos reales de la ingeniería de datos moderna. Cada pregunta incluye contexto técnico, patrones de diseño probados y ejemplos de código utilizados en producción por equipos de plataformas de datos.

Consejo para la entrevista: Durante entrevistas técnicas de ingeniería de datos, los evaluadores priorizan la capacidad de razonar sobre trade-offs arquitectónicos. No basta con conocer tecnologías: es esencial explicar por qué se elige una solución sobre otra considerando volumen de datos, latencia, costo y mantenibilidad. Practica articular decisiones técnicas con métricas concretas (throughput, SLA, costo por TB procesado).

SQL y Optimización de Consultas

1. ¿Cuál es la diferencia entre window functions y GROUP BY? ¿Cuándo usar cada una?

GROUP BY agrega filas colapsando el conjunto de resultados a una fila por grupo. Window functions calculan valores sobre un conjunto de filas relacionadas sin colapsar el resultado: cada fila original se preserva.

sql

-- GROUP BY: one row per department
SELECT department, AVG(salary) AS avg_salary
FROM employees
GROUP BY department;

-- Window function: every row preserved, avg added
SELECT
  employee_id,
  department,
  salary,
  AVG(salary) OVER (PARTITION BY department) AS dept_avg
FROM employees;

Casos de uso:

Usar GROUP BY cuando se necesitan agregaciones resumidas (dashboards, reportes totalizados)
Usar window functions cuando cada fila debe conservarse con contexto agregado (rankings, diferencias con promedios, análisis de cohort)

En pipelines de transformación ELT, window functions eliminan la necesidad de joins adicionales para enriquecer filas con métricas agregadas, mejorando performance en tablas con cientos de millones de registros.

2. Una tabla de eventos tiene 500 millones de filas. ¿Cómo optimizarías una consulta lenta que filtra por rango de fechas y user_id?

Estrategia de optimización multicapa:

Particionamiento físico: Particionar la tabla por fecha (daily/hourly partitions). Reduce el escaneo de datos en 99% para consultas con predicado temporal.
Clustering por user_id: En plataformas como BigQuery/Snowflake, el clustering agrupa filas con user_id similares físicamente, acelerando filtros.
Índices apropiados: En PostgreSQL/MySQL, crear índice compuesto (event_date, user_id) aprovechando el orden del predicado.
Estadísticas actualizadas: Ejecutar ANALYZE periódicamente para que el optimizador elija correctamente join algorithms y scan methods.
Compresión columnar: Formatos como Parquet/ORC reducen I/O en 80-90% para queries analíticas.

Trade-off crítico: Particionar por fecha + clustered por user_id es óptimo para queries filtradas por ambas dimensiones, pero genera overhead de mantenimiento (partition pruning, compaction). En lakehouses con Delta/Iceberg, Z-ordering automatiza este clustering.

3. ¿Cuándo usar CTEs vs subqueries vs temp tables en SQL complejo?

CTEs (Common Table Expressions):

Mejoran legibilidad al nombrar pasos intermedios
Optimizador puede materializarlas o inline según costo estimado
Ideales para queries con múltiples referencias a la misma subconsulta (evita duplicación de lógica)

Subqueries:

Útiles para filtros correlacionados simples (WHERE EXISTS)
En motores modernos, el optimizador los reescribe como joins cuando es beneficioso
Evitar en queries anidadas profundas (dificultan debugging y plan analysis)

Temp tables:

Materializan resultados intermedios explícitamente
Permiten indexar datos intermedios para joins costosos
Necesarias cuando el mismo dataset intermedio se consume múltiples veces en transformaciones complejas

Patrón recomendado para pipelines ELT: Usar CTEs para transformaciones de 2-3 pasos. Si el pipeline crece a 5+ pasos, migrar a tablas staging materializadas con herramientas como dbt que gestionan el linaje automáticamente.

Para patrones avanzados de SQL, consulta funciones de ventana y CTEs.

ETL vs ELT y Arquitectura de Pipelines de Datos

4. ¿Cuál es la diferencia entre ETL y ELT? ¿Cuándo elegir uno sobre el otro?

ETL (Extract-Transform-Load):

Transformaciones ocurren en un motor intermedio (Spark, Airflow workers) antes de cargar al warehouse
Útil cuando el destino no tiene capacidad de transformación (databases transaccionales legacy)
Ventaja: reduce carga en el warehouse objetivo

ELT (Extract-Load-Transform):

Datos raw se cargan directamente al warehouse; transformaciones ejecutan con SQL/dbt
Aprovecha el poder de cómputo de warehouses modernos (Snowflake, BigQuery, Redshift)
Ventaja: separación de concerns, auditabilidad total (raw data inmutable), reutilización de transformaciones

Criterio de decisión en 2026:

ELT es el estándar para warehouses cloud-native con compute elástico
ETL persiste para casos legacy o cuando se requiere enmascaramiento/encriptación antes de cargar datos sensibles
Híbrido: usar Spark para transformaciones pesadas (deduplicación de 10TB), luego ELT para agregaciones finales en warehouse

Profundiza en patrones ETL/ELT.

5. ¿Cómo diseñas un pipeline de datos idempotente?

Idempotencia garantiza que ejecutar el pipeline múltiples veces con los mismos inputs produce el mismo output, crítico para retries y backfills.

Técnicas de implementación:

Partition overwrite: Sobrescribir particiones completas por fecha/hora
Upsert con merge: Usar MERGE (SQL) o merge (Delta/Iceberg) con claves únicas
Deduplicación explícita: Ordenar por timestamp y mantener la versión más reciente
Truncate-and-load para tablas dimensionales pequeñas

python

# partition_overwrite.py
# Idempotent write: overwrite the entire partition for a given date
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("idempotent_load").getOrCreate()

df = spark.read.parquet("s3://raw-events/2026-04-11/")

# Transform: deduplicate by event_id, keep latest
df_deduped = (
    df.orderBy("event_timestamp", ascending=False)
    .dropDuplicates(["event_id"])
)

# Overwrite only the target partition
df_deduped.write \
    .mode("overwrite") \
    .partitionBy("event_date") \
    .parquet("s3://warehouse/events/")

Antipatrón: Usar append mode sin deduplicación genera duplicados en reruns. Siempre implementar lógica de merge o partition overwrite.

6. ¿Qué es data lineage y cómo lo implementas en producción?

Data lineage rastrea el flujo de datos desde origen hasta consumo: qué tablas se derivan de cuáles, qué transformaciones se aplicaron, quién es el owner.

Implementación en 2026:

Metadatos automatizados: dbt genera linaje automáticamente vía ref() y lo visualiza en dbt Cloud/docs
Catálogos de datos: OpenMetadata, DataHub, Atlan ingestan metadatos de Airflow, Spark, dbt y construyen grafos de linaje
Column-level lineage: Herramientas como sqllineage parsean queries SQL y mapean qué columnas downstream dependen de qué columnas upstream

Caso de uso crítico: Cuando una tabla source cambia su schema, el linaje permite identificar en minutos qué dashboards/models downstream se romperán, acelerando comunicación con stakeholders y priorización de fixes.

Streaming y Procesamiento de Datos en Tiempo Real

7. ¿Cuál es la diferencia entre procesamiento batch y streaming? ¿Cuándo usar cada uno?

Batch:

Procesa datos en ventanas discretas (hourly, daily)
Optimizado para throughput alto (procesar TB/PB eficientemente)
Latencia: minutos a horas

Streaming:

Procesa eventos continuamente a medida que arriban
Optimizado para latencia baja (sub-segundo a segundos)
Throughput menor por unidad de cómputo

Decisión arquitectónica:

Usar batch para reportes históricos, agregaciones diarias, ML training
Usar streaming para detección de fraude en tiempo real, alertas operacionales, dashboards live
Lambda architecture: Mantener ambos (batch para corrección, streaming para baja latencia)
Kappa architecture: Solo streaming, con capacidad de reprocess histórico

En 2026, frameworks como Apache Flink y Spark Structured Streaming unifican APIs, permitiendo el mismo código para batch y streaming.

8. ¿Cómo funciona Kafka y cuándo lo usarías en un pipeline de datos?

Apache Kafka es una plataforma de streaming distribuida que funciona como log commit distribuido.

Componentes clave:

Topics: Canales lógicos particionados
Producers: Escriben mensajes a topics
Consumers: Leen mensajes (consumer groups permiten paralelización)
Partitions: Unidad de paralelismo y ordering (mensajes en la misma partition mantienen orden)
Replication: Cada partition se replica en N brokers para durabilidad

Casos de uso:

Event bus: Desacoplar microservicios (order service → kafka → inventory service)
Change Data Capture (CDC): Capturar cambios de DB transaccional vía Debezium → Kafka → data lake
Stream processing: Alimentar Flink/Spark Streaming para agregaciones en tiempo real
Buffer para ingesta: Absorber picos de tráfico antes de escribir a warehouse

Trade-off: Kafka añade complejidad operacional (cluster management, monitoring, tuning). Solo justificado cuando se requiere throughput masivo (100k+ msgs/sec) o semántica exactly-once.

9. ¿Cómo manejas late-arriving data en streaming?

Late-arriving data: eventos que llegan al sistema después de su event timestamp (ej: sensor mobile sincroniza datos cuando recupera conectividad).

Estrategias:

Watermarks: Definir "cuánto esperar" por eventos tardíos. Ej: watermark de 1 hora significa cerrar ventanas temporales 1 hora después del event time más reciente.
Allowed lateness: En Flink/Beam, configurar ventana de gracia post-watermark para aceptar eventos tardíos antes de emitir resultado final.
Retractions: Emitir correcciones cuando llegan datos tardíos que cambian resultados ya emitidos.
Versioned outputs: Materializar múltiples versiones del agregado (as-of timestamps) para auditoría.

Decisión de negocio: Elegir lateness tolerance según SLA. Dashboard de métricas del negocio puede tolerar 5 min de lateness; sistema de billing requiere días de ventana para garantizar completitud.

Modelado de Datos y Diseño de Schemas

10. ¿Cuál es la diferencia entre star schema y snowflake schema?

Star schema:

Tabla de hechos central rodeada de tablas dimensionales desnormalizadas
Dimensiones son flat (no hay jerarquías normalizadas)
Menos joins → queries más rápidas

Snowflake schema:

Dimensiones están normalizadas en múltiples tablas relacionadas
Reduce redundancia de datos
Más joins → queries más lentas, pero menor storage

Recomendación 2026: Usar star schema en warehouses modernos. El costo de storage es bajo y los optimizadores de columnar warehouses (BigQuery, Snowflake) manejan joins eficientemente. Snowflake schema solo si hay restricciones extremas de storage o necesidad de actualizar dimensiones frecuentemente.

Para diseño avanzado, revisa modelado de datos en ingeniería.

11. ¿Qué son los Slowly Changing Dimensions (SCD) y cuáles son los tipos?

SCD gestiona cambios en dimensiones a lo largo del tiempo (ej: un cliente cambia de dirección).

Tipos principales:

Type 1: Sobrescribir valor antiguo (no se rastrea historia)
Type 2: Agregar nueva fila con versión nueva (columnas: valid_from, valid_to, is_current)
Type 3: Agregar columna para valor anterior (ej: previous_address)

Implementación común (Type 2):

Usar MERGE con lógica de close-out (marcar fila antigua como is_current = false, valid_to = current_date)
Insertar nueva fila con is_current = true, valid_from = current_date
dbt tiene macros snapshot que automatizan SCD Type 2

Caso de uso: Análisis histórico. Si un cliente cambió de plan Premium a Basic, las ventas pasadas se atribuyen correctamente al plan que tenía en ese momento.

12. ¿Cómo modelarías datos de eventos para soportar tanto queries transaccionales como analíticas?

Patrón dual-layer:

Raw event stream (immutable log):
- Almacenar todos los eventos en formato append-only (Kafka, S3 Parquet particionado por hora)
- Schema: event_id, event_type, user_id, timestamp, payload (JSON)
- Usado para: reprocessing, auditoría, ML feature engineering
Aggregated/modeled layer (optimizado para queries):
- Materializar vistas agregadas (daily active users, revenue por producto)
- Star schema con fact_events y dimensiones
- Incremental refresh desde raw layer

Ventajas:

Raw layer: retención completa, flexibilidad total para nuevos análisis
Modeled layer: performance óptima para dashboards y reporting

Tecnologías: Raw en Delta Lake/Iceberg, modeled en Snowflake/BigQuery. dbt orquesta transformaciones entre capas.

Apache Spark y Procesamiento Distribuido

13. ¿Qué es data skew en Spark y cómo lo resuelves?

Data skew ocurre cuando una partición tiene desproporcionadamente más datos que otras, causando que un executor procese 100x más datos que los demás (bottleneck).

Causas comunes:

Joins en keys con distribución no uniforme (ej: 80% de eventos tienen country = 'US')
GroupBy en columnas con valores dominantes

Solución: Salting

python

# salting_technique.py
# Fix skewed join by salting the large table's key
from pyspark.sql import functions as F

SALT_BUCKETS = 10

# Add salt to the large (skewed) table
large_df = large_df.withColumn(
    "salted_key",
    F.concat(F.col("join_key"), F.lit("_"), (F.rand() * SALT_BUCKETS).cast("int"))
)

# Explode the small table to match all salt values
small_df = small_df.crossJoin(
    spark.range(SALT_BUCKETS).withColumnRenamed("id", "salt")
).withColumn(
    "salted_key",
    F.concat(F.col("join_key"), F.lit("_"), F.col("salt"))
).drop("salt")

# Join on salted key (evenly distributed)
result = large_df.join(small_df, "salted_key")

Otras técnicas:

Broadcast joins para tablas pequeñas (<200MB)
Adaptive Query Execution (AQE) en Spark 3+ detecta y mitiga skew automáticamente

14. ¿Cuál es la diferencia entre transformations y actions en Spark?

Transformations:

Lazy: no se ejecutan inmediatamente
Construyen un DAG de operaciones
Ejemplos: map, filter, join, groupBy

Actions:

Eager: disparan la ejecución del DAG completo
Materializan resultados
Ejemplos: count, collect, write, show

Implicación práctica: Encadenar múltiples transformations antes de ejecutar un action permite al optimizador (Catalyst) aplicar optimizaciones como predicate pushdown y column pruning. Evitar actions intermedios innecesarios (como count para debugging en loops).

15. ¿Cuándo usar repartition vs coalesce?

repartition(N):

Full shuffle de datos entre executors
Distribuye datos uniformemente en N particiones
Costoso en I/O

coalesce(N):

Reduce particiones sin full shuffle (combina particiones existentes)
Solo para reducir número de particiones
Más eficiente que repartition

Casos de uso:

Usar repartition después de filtros agresivos que dejan particiones desbalanceadas, antes de operaciones costosas (joins)
Usar coalesce antes de escribir resultados para reducir número de archivos output (ej: de 1000 particiones a 10 archivos Parquet)

Regla de oro: Cada partición debería tener 128MB-1GB de datos para balance óptimo entre paralelización y overhead.

Orquestación y Gestión de Pipelines

16. ¿Cuál es la diferencia entre Airflow, Dagster y Prefect?

Apache Airflow:

Scheduler basado en DAGs (Python)
Maduro, amplia adopción, rico ecosistema de operators
Limitaciones: testing difícil, backfills complejos, no tipado fuerte

Dagster:

Moderna arquitectura con Software-Defined Assets
Tipado fuerte, testing first-class, linaje automático
Asset-centric (modela datasets, no solo tasks)
Mejor developer experience pero menor adopción que Airflow

Prefect:

Enfocado en developer experience, ejecución híbrida (cloud + on-prem)
Dynamic workflows (DAGs construidos en runtime)
Menos maduro para casos enterprise complejos

Decisión:

Equipos enterprise con inversión en Airflow: quedarse, pero migrar a Airflow 2.x con TaskFlow API
Proyectos nuevos con enfoque en data quality: Dagster
Equipos pequeños que priorizan velocidad: Prefect

Para conceptos de orquestación, consulta fundamentos de Airflow.

17. ¿Cómo manejas fallos en pipelines de datos?

Estrategias de resiliencia:

Retries con backoff exponencial: Configurar retries=3, retry_delay=timedelta(minutes=5) en Airflow
Idempotencia: Diseñar tasks para ser safely retryable (ver pregunta 5)
Alerting granular: Enviar alertas solo en failures repetidos, no en transient errors
Partial failure handling: En Spark, usar try-except por partición para procesar lo que sea posible
Circuit breakers: Si un upstream system falla repetidamente, pausar el pipeline temporalmente
Data validation gates: Implementar checks (row count, schema validation) antes de propagar datos downstream

Patrón de alerting:

Fallos en pipelines críticos (revenue, compliance) → PagerDuty inmediato
Fallos en pipelines informativos → Slack alert, retry automático
Definir SLAs claros (ej: tabla de ventas debe estar lista antes de 9 AM)

18. ¿Qué consideraciones tomas para llevar un pipeline a producción?

Checklist de production-readiness:

Monitoring: Métricas de duración, data quality, row counts, cost por run
Alerting: SLAs definidos con on-call rotation
Logging estructurado: JSON logs con trace IDs para debugging
Resource limits: Configurar timeouts, memory limits en Spark/Airflow
Schema evolution: Usar formatos con schema evolution (Avro, Protobuf, Delta)
Backfill strategy: Documentar cómo re-ejecutar para fechas pasadas
Cost estimation: Calcular costo por run, establecer alertas de budget
Security: Encriptar datos en tránsito y en reposo, gestionar secretos con Vault/AWS Secrets Manager
Documentation: Runbooks para on-call, diagramas de arquitectura
Testing: Unit tests para transformations, integration tests con datos sintéticos

Plataformas Cloud y Arquitectura Lakehouse

19. ¿Qué es un data lakehouse y cómo se diferencia de un data lake o data warehouse?

Data Lake:

Storage de objetos (S3, GCS) con archivos raw (Parquet, JSON)
Sin enforcement de schema, transacciones o governance
Riesgo de "data swamp"

Data Warehouse:

Sistema estructurado (Snowflake, BigQuery) con schema enforcement
Optimizado para queries SQL analíticas
Costoso para almacenar datos raw no estructurados

Lakehouse:

Combina flexibilidad de lake con governance de warehouse
Tecnologías: Delta Lake, Apache Iceberg, Apache Hudi
Features: ACID transactions, time travel, schema evolution, upserts/deletes
Soporta SQL, ML, streaming sobre el mismo storage

Ventaja competitiva: Lakehouse elimina duplicación de datos (no necesitas ETL de lake a warehouse), reduce costos y latencia.

20. ¿Cómo optimizas costos en plataformas cloud de datos?

Estrategias de optimización:

Compute:
- Usar spot instances/preemptible VMs para jobs no críticos (50-80% ahorro)
- Autoscaling de clusters (Dataproc, EMR) en lugar de clusters always-on
- Warehouses: configurar auto-suspend en Snowflake (1 min inactividad)
Storage:
- Lifecycle policies: mover datos >90 días a cold storage (Glacier, Coldline)
- Compresión: Parquet con Snappy reduce costos 70-90% vs JSON
- Deduplicación: eliminar datos duplicados en raw layer
Queries:
- Materializar agregaciones costosas en lugar de recomputar
- Partition pruning: diseñar partitions para eliminar 90%+ de datos escaneados
- Query result caching en BigQuery/Snowflake
Data transfer:
- Colocation: mantener storage y compute en la misma region
- Evitar egress innecesario (ej: no exportar TB a herramientas externas diariamente)

Monitoreo: Implementar dashboards de cost attribution por equipo/proyecto para identificar outliers.

Calidad y Gobernanza de Datos

21. ¿Cómo implementas data quality checks en pipelines?

Tres niveles de validación:

Ingestion time (raw layer):
- Schema validation (rechazar eventos con campos faltantes críticos)
- Freshness checks (alertar si no llegan eventos en 2 horas)
Transformation time:
- Referential integrity (validar foreign keys)
- Business rules (ej: revenue nunca negativo)
- Anomaly detection (row count fuera de 3σ de histórico)
Serving time (pre-dashboard):
- Completeness (todas las tiendas reportaron ventas)
- Accuracy (total agregado matchea sum de partes)

Herramientas:

Great Expectations: librería Python para assertions declarativas
dbt tests: tests de schema + custom SQL tests
Soda: SQL-based data quality framework

Estrategia de fallos: Para checks críticos, bloquear el pipeline. Para checks informativos, registrar warnings pero permitir ejecución.

22. ¿Qué son los data contracts y por qué son importantes?

Data contract: Acuerdo formal entre productores y consumidores de datos que especifica schema, SLA, calidad esperada y ownership.

Componentes típicos:

Schema: Tipos de datos, campos required vs optional
SLA: Latencia máxima, freshness garantizado
Quality: Completeness mínimo (95% de registros válidos)
Ownership: Equipo responsable, canal de comunicación

Implementación:

Definir contracts en YAML (ej: con herramientas como Soda, Protobuf)
Validar automáticamente en CI/CD antes de deployar cambios
Breaking changes requieren aprobación de equipos consumidores

Beneficio: Previene incidentes donde cambios upstream rompen dashboards downstream sin aviso. Reduce tiempo de debugging de días a minutos.

Diseño de Sistemas y Arquitectura

23. Diseña un pipeline de datos para un dashboard de analytics en tiempo real.

Requisitos:

Latencia: métricas visibles en <10 segundos
Volumen: 50k eventos/segundo
Queries: filtros por user_id, event_type, timestamp range

Arquitectura:

Ingestion: Producers → Kafka (particionado por user_id para locality)
Stream processing: Flink consume de Kafka
- Window aggregations (tumbling 1-min windows)
- Enrich con dimension data (user attributes desde cache)
- Output a OLAP DB (ClickHouse, Druid)
Serving layer: ClickHouse/Druid optimizado para queries analíticas con alta concurrencia
Backup histórico: Flink escribe raw events a S3/Delta Lake para análisis batch posterior

Trade-offs:

Usar Flink (stateful) vs Spark Streaming (microbatch): Flink tiene menor latencia para windows pequeños
OLAP DB vs cache (Redis): OLAP permite queries ad-hoc, Redis solo key-value lookups

24. ¿Cómo migrarías un warehouse legacy a una plataforma moderna sin downtime?

Estrategia de migración gradual (strangler pattern):

Dual-write phase:
- Escribir datos a legacy warehouse Y nuevo lakehouse simultáneamente
- Validar data parity con reconciliation jobs diarios
Shadow mode:
- Dashboards leen de legacy, pero queries se ejecutan también en nuevo sistema (sin mostrarse)
- Comparar performance y resultados
Gradual cutover:
- Migrar dashboards no críticos primero
- Monitorear errores, rollback si es necesario
- Migrar dashboards críticos al final
Decommission:
- Una vez 100% del tráfico en nuevo sistema, desactivar legacy
- Mantener backup de datos legacy por 6-12 meses

Riesgos mitigados:

Data loss: dual-write garantiza redundancia
Query incompatibility: shadow mode detecta diferencias antes de cutover
Rollback: mantener legacy activo permite revertir rápidamente

25. Un dashboard crítico muestra números incorrectos. ¿Cómo debugueas?

Metodología sistemática:

Reproducir el issue:
- Confirmar números incorrectos con stakeholder (ejemplos específicos)
- Verificar si afecta a todo el dashboard o métricas específicas
Validar data source:
- Ejecutar query del dashboard manualmente contra la tabla
- Verificar row count, nulls, duplicados
- Comparar con día anterior (¿cambio reciente?)
Trace lineage upstream:
- Revisar logs del pipeline que alimenta la tabla
- Verificar si hubo failures/retries recientes
- Comparar con tabla raw (¿transformación incorrecta?)
Check recent changes:
- Revisar commits en Git (dbt models, Airflow DAGs)
- Verificar deployments recientes de servicios upstream
Validate assumptions:
- Confirmar que no hubo cambios en lógica de negocio (ej: nueva definición de "active user")

Patrón común: 70% de los bugs son cambios upstream no comunicados (schema change, nueva lógica de filtrado). Data lineage y alerting de schema changes previenen esto.

¿Listo para aprobar tus entrevistas de Data Engineering?

Practica con nuestros simuladores interactivos, flashcards y tests técnicos.

Explorar Data Engineering

Preparación para Entrevistas de Ingeniería de Datos

Dominar estas 25 preguntas requiere combinar conocimiento teórico con experiencia práctica construyendo pipelines de datos en producción. Los entrevistadores buscan:

Razonamiento arquitectónico: Capacidad de evaluar trade-offs (costo vs latencia, consistencia vs disponibilidad)
Experiencia operacional: Conocimiento de debugging, monitoring, incident response en sistemas distribuidos
Profundidad técnica: Entender internals de Spark, optimizadores de SQL, semánticas de streaming
Comunicación: Explicar conceptos complejos de forma clara, adaptar nivel técnico a la audiencia

Para maximizar preparación:

Practica código: Implementa pipelines end-to-end con Spark, Airflow, dbt en proyectos personales
Estudia arquitecturas reales: Lee engineering blogs de Airbnb, Uber, Netflix sobre sus data platforms
Simula entrevistas: Usa plataformas de mock interviews específicas para data engineering
Construye portfolio: Contribuye a proyectos open source (Apache Airflow, dbt) o publica artículos técnicos

La ingeniería de datos en 2026 exige profesionales capaces de diseñar infraestructuras que escalan a petabytes, garantizan calidad mediante governance automatizada, y entregan valor de negocio con latencia cada vez menor. Estas preguntas reflejan los desafíos técnicos que enfrentarán equipos de datos modernos.

Para seguir profundizando, explora el track completo de ingeniería de datos con módulos de tests técnicos, flashcards y simuladores de entrevista.

SQL y Optimización de Consultas

1. ¿Cuál es la diferencia entre window functions y GROUP BY? ¿Cuándo usar cada una?

2. Una tabla de eventos tiene 500 millones de filas. ¿Cómo optimizarías una consulta lenta que filtra por rango de fechas y user_id?

3. ¿Cuándo usar CTEs vs subqueries vs temp tables en SQL complejo?

ETL vs ELT y Arquitectura de Pipelines de Datos

4. ¿Cuál es la diferencia entre ETL y ELT? ¿Cuándo elegir uno sobre el otro?

5. ¿Cómo diseñas un pipeline de datos idempotente?

6. ¿Qué es data lineage y cómo lo implementas en producción?

Streaming y Procesamiento de Datos en Tiempo Real

7. ¿Cuál es la diferencia entre procesamiento batch y streaming? ¿Cuándo usar cada uno?

8. ¿Cómo funciona Kafka y cuándo lo usarías en un pipeline de datos?

9. ¿Cómo manejas late-arriving data en streaming?

Modelado de Datos y Diseño de Schemas

10. ¿Cuál es la diferencia entre star schema y snowflake schema?

11. ¿Qué son los Slowly Changing Dimensions (SCD) y cuáles son los tipos?

12. ¿Cómo modelarías datos de eventos para soportar tanto queries transaccionales como analíticas?

Apache Spark y Procesamiento Distribuido

13. ¿Qué es data skew en Spark y cómo lo resuelves?

14. ¿Cuál es la diferencia entre transformations y actions en Spark?

15. ¿Cuándo usar repartition vs coalesce?

Orquestación y Gestión de Pipelines

16. ¿Cuál es la diferencia entre Airflow, Dagster y Prefect?

17. ¿Cómo manejas fallos en pipelines de datos?

18. ¿Qué consideraciones tomas para llevar un pipeline a producción?

Plataformas Cloud y Arquitectura Lakehouse

19. ¿Qué es un data lakehouse y cómo se diferencia de un data lake o data warehouse?

20. ¿Cómo optimizas costos en plataformas cloud de datos?

Calidad y Gobernanza de Datos

21. ¿Cómo implementas data quality checks en pipelines?

22. ¿Qué son los data contracts y por qué son importantes?

Diseño de Sistemas y Arquitectura

23. Diseña un pipeline de datos para un dashboard de analytics en tiempo real.

24. ¿Cómo migrarías un warehouse legacy a una plataforma moderna sin downtime?

25. Un dashboard crítico muestra números incorrectos. ¿Cómo debugueas?

¿Listo para aprobar tus entrevistas de Data Engineering?

Preparación para Entrevistas de Ingeniería de Datos

Artículos relacionados

dbt en 2026: transformaciones de datos, pruebas y preguntas de entrevista

Snowflake en 2026: arquitectura, SQL y preguntas de entrevista para ingenieros de datos

Apache Airflow en 2026: orquestación de pipelines, DAG y preguntas de entrevista