La optimización del rendimiento en Node.js comienza con una comprensión profunda del event loop — el mecanismo de un solo hilo que gestiona todas las operaciones de entrada/salida asíncronas. En los sistemas en producción que ejecutan Node.js 22 LTS o Node.js 24, una gestión deficiente del event loop sigue siendo la causa principal de picos de latencia, conexiones caídas y fallos en cascada bajo carga.

Esta guía cubre los tres pilares del rendimiento en Node.js: los mecanismos internos del event loop, el escalado multi-core con clusters y worker threads, y los patrones de optimización prácticos utilizados en sistemas de alto rendimiento.

Punto clave

El event loop procesa los callbacks en un orden estricto de fases: timers, pending callbacks, idle/prepare, poll, check y close callbacks. Bloquear una sola fase detiene toda la aplicación. Monitorear la utilización del event loop con performance.eventLoopUtilization() es la herramienta de diagnóstico más efectiva para problemas de rendimiento en Node.js.

Cómo el event loop de Node.js procesa las solicitudes

El event loop no es una simple cola. Opera a través de seis fases distintas, cada una responsable de una categoría específica de callbacks. Comprender esta arquitectura de fases explica por qué ciertos patrones causan latencia y otros no.

event-loop-phases.jsjavascript

// Demostración del orden de ejecución de las fases

const fs = require('fs');

// Fase 1: Timers — ejecuta callbacks de setTimeout/setInterval
setTimeout(() => console.log('1. Timer phase'), 0);

// Fase 4: Poll — ejecuta callbacks de I/O
fs.readFile(__filename, () => {
  console.log('2. Poll phase (I/O callback)');

  // Fase 5: Check — ejecuta callbacks de setImmediate
  setImmediate(() => console.log('3. Check phase (setImmediate)'));

  // Fase 1 nuevamente: Timer programado desde I/O
  setTimeout(() => console.log('4. Timer phase (from I/O)'), 0);
});

// Microtask — se ejecuta entre cada transición de fase
Promise.resolve().then(() => console.log('Microtask: Promise'));
process.nextTick(() => console.log('Microtask: nextTick'));

El orden de salida revela la prioridad de las fases: nextTick se ejecuta antes que las promises, las promises antes que los timers, y setImmediate siempre se dispara después de los callbacks de I/O en la fase check. Este ordenamiento es fundamental al diseñar handlers sensibles a la latencia.

Detección del bloqueo del event loop en producción

Un event loop bloqueado se manifiesta como un aumento en la latencia p99 mucho antes de que los tiempos de respuesta promedio se degraden. La API nativa performance.eventLoopUtilization(), estable desde Node.js 16, proporciona el mecanismo de detección más confiable.

event-loop-monitor.jsjavascript

// Monitoreo del event loop de nivel producción

const { performance, monitorEventLoopDelay } = require('perf_hooks');

// Histograma de alta resolución del retardo del event loop
const histogram = monitorEventLoopDelay({ resolution: 20 });
histogram.enable();

// Seguimiento de la utilización por intervalos
let previous = performance.eventLoopUtilization();

setInterval(() => {
  const current = performance.eventLoopUtilization(previous);
  previous = performance.eventLoopUtilization();

  const metrics = {
    // Ratio de tiempo activo vs inactivo del loop (0-1)
    utilization: current.utilization.toFixed(3),
    // Percentiles de retardo en milisegundos
    p50: (histogram.percentile(50) / 1e6).toFixed(2),
    p99: (histogram.percentile(99) / 1e6).toFixed(2),
    max: (histogram.max / 1e6).toFixed(2),
  };

  // Alerta cuando la utilización supera el 70% o p99 > 100ms
  if (current.utilization > 0.7 || histogram.percentile(99) > 100e6) {
    console.warn('EVENT_LOOP_SATURATED', metrics);
  }

  histogram.reset();
}, 5000);

Una utilización superior a 0,7 (70 %) indica que el event loop está dedicando más tiempo a ejecutar callbacks que a esperar operaciones de I/O. En este umbral, las conexiones entrantes comienzan a acumularse y las latencias de cola aumentan exponencialmente.

Patrones bloqueantes comunes y sus soluciones

Tres patrones son responsables de la mayoría de los incidentes de bloqueo del event loop en aplicaciones Node.js en producción: operaciones JSON síncronas sobre payloads grandes, cálculos intensivos en los handlers de solicitudes y expresiones regulares sin límites.

blocking-patterns.jsjavascript

// Anti-patrones y sus soluciones

// PROBLEMA: JSON.parse bloquea en payloads grandes
const largePayload = Buffer.alloc(50 * 1024 * 1024); // 50MB
// JSON.parse(largePayload.toString()); // Bloquea el event loop 200-500ms

// SOLUCIÓN: Parsear en streaming con un parser adecuado
const { Transform } = require('stream');
const JSONStream = require('jsonstream2');

function processLargeJSON(readableStream) {
  return new Promise((resolve, reject) => {
    const results = [];
    readableStream
      .pipe(JSONStream.parse('items.*'))  // Parseo en streaming de elementos del array
      .on('data', (item) => results.push(item))
      .on('end', () => resolve(results))
      .on('error', reject);
  });
}

// PROBLEMA: Crypto síncrono en la ruta de solicitud
// const hash = crypto.pbkdf2Sync(password, salt, 100000, 64, 'sha512');

// SOLUCIÓN: Usar la variante asíncrona
const crypto = require('crypto');
async function hashPassword(password, salt) {
  return new Promise((resolve, reject) => {
    crypto.pbkdf2(password, salt, 100000, 64, 'sha512', (err, key) => {
      if (err) reject(err);
      else resolve(key.toString('hex'));
    });
  });
}

La variante asíncrona de pbkdf2 descarga el trabajo de CPU al pool de threads de libuv, manteniendo el event loop libre para procesar otras solicitudes. Este único cambio redujo la latencia p99 de 900ms a 120ms en un incidente documentado en producción fintech.

Escalado multi-core con el módulo Cluster

Un solo proceso Node.js utiliza un único core de CPU. En un servidor de producción de 16 cores, esto significa que el 93 % de la capacidad de cómputo disponible permanece inactiva. El módulo nativo cluster genera procesos worker que comparten un único puerto, distribuyendo las conexiones entrantes entre todos los cores.

cluster-setup.jsjavascript

// Clustering de producción con apagado gracioso

const cluster = require('cluster');
const os = require('os');
const process = require('process');

const WORKER_COUNT = parseInt(process.env.WORKERS) || os.cpus().length;

if (cluster.isPrimary) {
  console.log(`Primary ${process.pid} starting ${WORKER_COUNT} workers`);

  // Fork de un worker por cada core de CPU
  for (let i = 0; i < WORKER_COUNT; i++) {
    cluster.fork();
  }

  // Reinicio automático de workers que fallan
  cluster.on('exit', (worker, code, signal) => {
    if (!worker.exitedAfterDisconnect) {
      console.error(`Worker ${worker.process.pid} died (${signal || code}). Restarting...`);
      cluster.fork();
    }
  });

  // Apagado gracioso con SIGTERM
  process.on('SIGTERM', () => {
    console.log('Primary received SIGTERM. Shutting down workers...');
    for (const id in cluster.workers) {
      cluster.workers[id].disconnect();
    }
  });
} else {
  // Proceso worker — iniciar el servidor HTTP
  const http = require('http');
  const server = http.createServer((req, res) => {
    res.writeHead(200);
    res.end(`Handled by worker ${process.pid}\n`);
  });

  server.listen(3000, () => {
    console.log(`Worker ${process.pid} listening on port 3000`);
  });

  // Apagado gracioso del worker individual
  process.on('SIGTERM', () => {
    server.close(() => process.exit(0));
  });
}

Cada worker se ejecuta en su propio isolate de V8 con memoria separada. Los workers no comparten estado — los datos de sesión, cachés y el estado de la aplicación deben residir en un almacén externo como Redis o PostgreSQL. Este aislamiento también proporciona tolerancia a fallos: un crash en un worker no afecta a los demás.

¿Listo para aprobar tus entrevistas de Node.js / NestJS?

Practica con nuestros simuladores interactivos, flashcards y tests técnicos.

Explorar Node.js / NestJS

Worker Threads para tareas intensivas en CPU

El módulo cluster duplica el proceso completo. Los worker threads, introducidos en Node.js 10 y estables desde Node.js 12, ejecutan JavaScript en hilos paralelos dentro del mismo proceso. Comparten memoria a través de SharedArrayBuffer y transfieren datos mediante clonación estructurada.

La distinción es importante: los clusters se utilizan para escalar servidores HTTP ligados a I/O en múltiples cores, mientras que los worker threads sirven para descargar operaciones ligadas a CPU del event loop.

worker-pool.jsjavascript

// Pool de worker threads reutilizable para tareas de CPU

const { Worker } = require('worker_threads');
const os = require('os');

class WorkerPool {
  constructor(workerScript, poolSize = os.cpus().length) {
    this.workers = [];
    this.queue = [];

    for (let i = 0; i < poolSize; i++) {
      this.workers.push({ busy: false, worker: new Worker(workerScript) });
    }
  }

  execute(taskData) {
    return new Promise((resolve, reject) => {
      const available = this.workers.find(w => !w.busy);

      if (available) {
        this._runTask(available, taskData, resolve, reject);
      } else {
        // Encolar la tarea hasta que un worker esté libre
        this.queue.push({ taskData, resolve, reject });
      }
    });
  }

  _runTask(entry, taskData, resolve, reject) {
    entry.busy = true;
    entry.worker.postMessage(taskData);

    const onMessage = (result) => {
      entry.busy = false;
      cleanup();
      resolve(result);
      this._processQueue();
    };

    const onError = (err) => {
      entry.busy = false;
      cleanup();
      reject(err);
      this._processQueue();
    };

    const cleanup = () => {
      entry.worker.removeListener('message', onMessage);
      entry.worker.removeListener('error', onError);
    };

    entry.worker.on('message', onMessage);
    entry.worker.on('error', onError);
  }

  _processQueue() {
    if (this.queue.length === 0) return;
    const available = this.workers.find(w => !w.busy);
    if (available) {
      const { taskData, resolve, reject } = this.queue.shift();
      this._runTask(available, taskData, resolve, reject);
    }
  }
}

module.exports = { WorkerPool };

image-worker.jsjavascript

// Worker thread para procesamiento de imágenes intensivo en CPU

const { parentPort } = require('worker_threads');
const sharp = require('sharp');

parentPort.on('message', async ({ inputPath, width, height }) => {
  const result = await sharp(inputPath)
    .resize(width, height)
    .webp({ quality: 80 })
    .toBuffer();

  parentPort.postMessage({ size: result.length, buffer: result });
});

Un pool de workers pre-instancia los hilos al inicio y los reutiliza entre solicitudes. Esto evita la sobrecarga de 30-50 ms de crear un nuevo worker thread por solicitud. Para procesamiento de imágenes, generación de PDF o transformación de datos, este patrón mantiene la latencia del event loop principal por debajo de 5 ms incluso bajo carga de CPU sostenida.

Optimización de memoria y ajuste del garbage collector

V8 divide el heap en generación joven (objetos de corta vida) y generación vieja (objetos de larga vida). La mayoría de los problemas de rendimiento provienen de asignaciones excesivas en la generación joven, que disparan pausas frecuentes de GC menor, o de fugas de memoria que hacen crecer la generación vieja hasta que las pausas de GC mayor causan picos de latencia visibles.

memory-optimization.jsjavascript

// Patrones que reducen la presión sobre el GC

// ANTI-PATRÓN: Crear objetos en bucles críticos
function processItemsBad(items) {
  return items.map(item => ({
    id: item.id,
    name: item.name.trim(),
    score: calculateScore(item),
    metadata: { processed: true, timestamp: Date.now() }
  }));
}

// OPTIMIZADO: Reutilizar buffers y minimizar asignaciones
const reusableBuffer = Buffer.alloc(4096);

function processItemsGood(items, output) {
  // Reutilizar el array de salida en vez de crear uno nuevo
  output.length = 0;
  for (let i = 0; i < items.length; i++) {
    // Mutación en lugar cuando es seguro
    output.push(items[i].id);
  }
  return output;
}

// Monitoreo del uso del heap para detección de fugas
function checkMemory() {
  const used = process.memoryUsage();
  return {
    heapUsedMB: Math.round(used.heapUsed / 1024 / 1024),
    heapTotalMB: Math.round(used.heapTotal / 1024 / 1024),
    externalMB: Math.round(used.external / 1024 / 1024),
    rsssMB: Math.round(used.rss / 1024 / 1024),
  };
}

// Flags de V8 para ajuste del GC en producción
// node --max-old-space-size=4096 --max-semi-space-size=128 app.js
// --max-old-space-size: Límite de la generación vieja (por defecto ~1.7GB)
// --max-semi-space-size: Aumentar la generación joven (por defecto 16MB)

Aumentar --max-semi-space-size del valor predeterminado de 16 MB a 64-128 MB reduce la frecuencia de GC menor para aplicaciones con tasas de asignación elevadas. El compromiso es intercambiar memoria por menor frecuencia de pausas del GC — una decisión acertada en servidores con 8 GB+ de RAM.

Monitoreo en producción con OpenTelemetry en Node.js 24

OpenTelemetry se ha consolidado como el framework de instrumentación estándar para Node.js en 2026. El runtime de Node.js 24 incluye soporte mejorado de profiling con datos de caché inline en los perfiles de CPU, haciendo el análisis de rendimiento significativamente más preciso.

otel-setup.jsjavascript

// Configuración de OpenTelemetry para monitoreo de rendimiento Node.js

const { NodeSDK } = require('@opentelemetry/sdk-node');
const { getNodeAutoInstrumentations } = require('@opentelemetry/auto-instrumentations-node');
const { PrometheusExporter } = require('@opentelemetry/exporter-prometheus');
const { PeriodicExportingMetricReader } = require('@opentelemetry/sdk-metrics');

const sdk = new NodeSDK({
  metricReader: new PrometheusExporter({ port: 9464 }),
  instrumentations: [
    getNodeAutoInstrumentations({
      // Instrumentar HTTP, Express, DNS, fs y más
      '@opentelemetry/instrumentation-fs': { enabled: false }, // Demasiado ruidoso
    }),
  ],
});

sdk.start();

// Métrica personalizada de lag del event loop
const { metrics } = require('@opentelemetry/api');
const meter = metrics.getMeter('app');

const eventLoopLag = meter.createHistogram('nodejs.event_loop.lag', {
  description: 'Event loop lag in milliseconds',
  unit: 'ms',
});

// Reportar el lag del event loop cada segundo
const { monitorEventLoopDelay } = require('perf_hooks');
const h = monitorEventLoopDelay({ resolution: 10 });
h.enable();

setInterval(() => {
  eventLoopLag.record(h.percentile(99) / 1e6);
  h.reset();
}, 1000);

Esta configuración exporta el lag del event loop, la duración de las solicitudes HTTP y el tiempo de resolución DNS como métricas de Prometheus. Configurar alertas cuando el lag p99 del event loop supera los 100 ms permite detectar degradaciones antes de que los usuarios las noten.

Trampa de Cluster + Worker Threads

Cada worker del cluster obtiene su propio pool de threads libuv (4 threads por defecto). En una máquina de 16 cores con 16 workers de cluster, esto significa 64 threads de libuv compitiendo por tiempo de CPU. Se recomienda configurar UV_THREADPOOL_SIZE en 2-4 por worker en entornos con clustering, y reservar cores para los worker threads que manejan tareas de CPU.

Elegir entre clusters, worker threads y escalado externo

La estrategia de escalado correcta depende del perfil de la carga de trabajo. Una matriz de decisión basada en patrones reales de producción:

| Escenario | Estrategia | Razón | |-----------|------------|-------| | API HTTP, mayormente I/O | Módulo cluster (1 worker por core) | Maximiza el throughput de conexiones | | Procesamiento de imagen/video | Pool de worker threads (4-8 threads) | Mantiene el event loop responsivo | | Pipeline de datos intensivo en CPU | Worker threads + SharedArrayBuffer | Compartición de datos sin copia | | Microservicios a escala | Pods de Kubernetes (contenedores mono-proceso) | El orquestador gestiona el escalado | | Mixto I/O + CPU | Cluster + pool de workers por worker | Cada worker descarga el CPU a threads |

Para despliegues contenerizados en Kubernetes, ejecutar un solo proceso Node.js por contenedor (sin clustering) suele ser más simple y predecible. El orquestador maneja el escalado horizontal, los health checks y los reinicios progresivos. El clustering aporta valor al ejecutar en bare metal o VMs donde una sola máquina debe maximizar la utilización de los cores.

Mejoras de rendimiento en Node.js 24

Node.js 24, lanzado en 2025, incluye V8 12.4 con un 8-12 % de mejora en el throughput de cargas API. El fetch() nativo ahora utiliza Undici 7.0 con soporte HTTP/2 y HTTP/3 por defecto. El modelo de permisos también permite bloquear el acceso al sistema de archivos y a la red por worker para una defensa en profundidad.

Lista de verificación de optimización práctica para producción

Aplicar estas técnicas en orden de impacto — salud del event loop primero, luego escalado, después ajuste fino — produce mejoras medibles con riesgo mínimo.

Monitorear la utilización del event loop de forma continua con performance.eventLoopUtilization() — alertar al umbral del 70 %
Perfilar antes de optimizar — usar node --prof o trazas de OpenTelemetry para identificar los cuellos de botella reales, no los supuestos
Mover las operaciones síncronas fuera del hilo principal — crypto.pbkdf2, JSON.parse en payloads grandes, procesamiento de imágenes pertenecen a los worker threads
Configurar UV_THREADPOOL_SIZE según la carga — el valor predeterminado de 4 es demasiado bajo para aplicaciones con mucho DNS o I/O de archivos, demasiado alto en configuraciones con clustering
Usar streaming para datos grandes — JSONStream, csv-parser y stream.pipeline() de Node.js previenen picos de memoria en payloads grandes
Pre-calentar los pools de workers al inicio — evitar la latencia de arranque en frío en las primeras solicitudes a endpoints intensivos en CPU
Ajustar los flags del heap de V8 para el despliegue — --max-old-space-size y --max-semi-space-size según la memoria disponible y los patrones de asignación
Implementar apagado gracioso — drenar conexiones ante SIGTERM, cerrar pools de bases de datos y dejar que las solicitudes en curso terminen antes de la salida del proceso

¡Empieza a practicar!

Pon a prueba tu conocimiento con nuestros simuladores de entrevista y tests técnicos.

Crear mi cuenta gratis

Conclusión

El rendimiento de Node.js en 2026 se centra en tres fundamentos:

El event loop es el punto único de fallo para el throughput — monitorear su utilización y eliminar bloqueos tiene el mayor impacto en la latencia
El clustering escala las cargas ligadas a I/O en múltiples cores; los worker threads descargan las tareas ligadas a CPU del event loop — usar ambos juntos proporciona la máxima utilización del hardware
El monitoreo en producción con OpenTelemetry y las herramientas de profiling de V8 convierten las suposiciones en datos — configurar alertas sobre el lag p99 del event loop y la tasa de crecimiento del heap
Node.js 24 trae las mejoras de rendimiento de V8 12.4, HTTP/3 estable vía Undici 7, y un modelo de permisos maduro — actualizar desde Node.js 20 o anterior ofrece mejoras medibles en el throughput
Comenzar con performance.eventLoopUtilization() en cualquier aplicación Node.js existente — los resultados suelen revelar la optimización de mayor impacto disponible

Para profundizar en la preparación para entrevistas de Node.js y NestJS, explorar el track tecnológico de Node.js & NestJS y el módulo de middleware e interceptores para una cobertura más profunda de los patrones de arquitectura en producción. La guía de preguntas de entrevista backend Node.js cubre temas avanzados adicionales frecuentemente preguntados en entrevistas de ingenieros senior.

Rendimiento en Node.js: Event Loop, Clustering y Optimización en 2026