A otimização de performance do Node.js começa com uma compreensão profunda do event loop — o mecanismo single-thread que gerencia todas as operações de entrada/saída assíncronas. Em sistemas em produção executando Node.js 22 LTS ou Node.js 24, o gerenciamento inadequado do event loop continua sendo a principal causa de picos de latência, conexões perdidas e falhas em cascata sob carga.

Este guia cobre os três pilares da performance do Node.js: os mecanismos internos do event loop, o escalonamento multi-core com clusters e worker threads, e os padrões de otimização práticos utilizados em sistemas de alto throughput.

Ponto-chave

O event loop processa os callbacks em uma ordem estrita de fases: timers, pending callbacks, idle/prepare, poll, check e close callbacks. Bloquear uma única fase paralisa toda a aplicação. Monitorar a utilização do event loop com performance.eventLoopUtilization() é a ferramenta de diagnóstico mais eficaz para problemas de performance do Node.js.

Como o event loop do Node.js processa requisições

O event loop não é uma simples fila. Ele opera através de seis fases distintas, cada uma responsável por uma categoria específica de callbacks. Compreender essa arquitetura de fases explica por que certos padrões causam latência e outros não.

event-loop-phases.jsjavascript

// Demonstração da ordem de execução das fases

const fs = require('fs');

// Fase 1: Timers — executa callbacks de setTimeout/setInterval
setTimeout(() => console.log('1. Timer phase'), 0);

// Fase 4: Poll — executa callbacks de I/O
fs.readFile(__filename, () => {
  console.log('2. Poll phase (I/O callback)');

  // Fase 5: Check — executa callbacks de setImmediate
  setImmediate(() => console.log('3. Check phase (setImmediate)'));

  // Fase 1 novamente: Timer agendado a partir de I/O
  setTimeout(() => console.log('4. Timer phase (from I/O)'), 0);
});

// Microtask — executa entre cada transição de fase
Promise.resolve().then(() => console.log('Microtask: Promise'));
process.nextTick(() => console.log('Microtask: nextTick'));

A ordem de saída revela a prioridade das fases: nextTick executa antes das promises, promises executam antes dos timers, e setImmediate sempre dispara após os callbacks de I/O na fase check. Esse ordenamento é determinante ao projetar handlers sensíveis à latência.

Detectando bloqueio do event loop em produção

Um event loop bloqueado se manifesta como aumento na latência p99 muito antes dos tempos de resposta médios se degradarem. A API nativa performance.eventLoopUtilization(), estável desde o Node.js 16, fornece o mecanismo de detecção mais confiável.

event-loop-monitor.jsjavascript

// Monitoramento do event loop de nível produção

const { performance, monitorEventLoopDelay } = require('perf_hooks');

// Histograma de alta resolução do atraso do event loop
const histogram = monitorEventLoopDelay({ resolution: 20 });
histogram.enable();

// Rastreamento da utilização por intervalos
let previous = performance.eventLoopUtilization();

setInterval(() => {
  const current = performance.eventLoopUtilization(previous);
  previous = performance.eventLoopUtilization();

  const metrics = {
    // Razão entre tempo ativo e inativo do loop (0-1)
    utilization: current.utilization.toFixed(3),
    // Percentis de atraso em milissegundos
    p50: (histogram.percentile(50) / 1e6).toFixed(2),
    p99: (histogram.percentile(99) / 1e6).toFixed(2),
    max: (histogram.max / 1e6).toFixed(2),
  };

  // Alerta quando a utilização ultrapassa 70% ou p99 > 100ms
  if (current.utilization > 0.7 || histogram.percentile(99) > 100e6) {
    console.warn('EVENT_LOOP_SATURATED', metrics);
  }

  histogram.reset();
}, 5000);

Uma utilização acima de 0,7 (70%) sinaliza que o event loop está gastando mais tempo executando callbacks do que aguardando I/O. Nesse limiar, as conexões entrantes começam a se acumular e as latências de cauda aumentam exponencialmente.

Padrões bloqueantes comuns e suas correções

Três padrões são responsáveis pela maioria dos incidentes de bloqueio do event loop em aplicações Node.js em produção: operações JSON síncronas em payloads grandes, computações intensivas nos handlers de requisições e expressões regulares sem limites.

blocking-patterns.jsjavascript

// Anti-padrões e suas soluções

// PROBLEMA: JSON.parse bloqueia em payloads grandes
const largePayload = Buffer.alloc(50 * 1024 * 1024); // 50MB
// JSON.parse(largePayload.toString()); // Bloqueia o event loop por 200-500ms

// SOLUÇÃO: Fazer parse em streaming com parser adequado
const { Transform } = require('stream');
const JSONStream = require('jsonstream2');

function processLargeJSON(readableStream) {
  return new Promise((resolve, reject) => {
    const results = [];
    readableStream
      .pipe(JSONStream.parse('items.*'))  // Parse em streaming dos itens do array
      .on('data', (item) => results.push(item))
      .on('end', () => resolve(results))
      .on('error', reject);
  });
}

// PROBLEMA: Crypto síncrono no caminho da requisição
// const hash = crypto.pbkdf2Sync(password, salt, 100000, 64, 'sha512');

// SOLUÇÃO: Usar a variante assíncrona
const crypto = require('crypto');
async function hashPassword(password, salt) {
  return new Promise((resolve, reject) => {
    crypto.pbkdf2(password, salt, 100000, 64, 'sha512', (err, key) => {
      if (err) reject(err);
      else resolve(key.toString('hex'));
    });
  });
}

A variante assíncrona do pbkdf2 transfere o trabalho de CPU para o pool de threads do libuv, mantendo o event loop livre para processar outras requisições. Essa única alteração reduziu a latência p99 de 900ms para 120ms em um incidente documentado em produção fintech.

Escalonamento multi-core com o módulo Cluster

Um único processo Node.js utiliza um único core de CPU. Em um servidor de produção com 16 cores, isso significa que 93% da capacidade computacional disponível permanece ociosa. O módulo nativo cluster cria processos worker que compartilham uma única porta, distribuindo as conexões entrantes entre todos os cores.

cluster-setup.jsjavascript

// Clustering de produção com desligamento gracioso

const cluster = require('cluster');
const os = require('os');
const process = require('process');

const WORKER_COUNT = parseInt(process.env.WORKERS) || os.cpus().length;

if (cluster.isPrimary) {
  console.log(`Primary ${process.pid} starting ${WORKER_COUNT} workers`);

  // Fork de um worker por core de CPU
  for (let i = 0; i < WORKER_COUNT; i++) {
    cluster.fork();
  }

  // Reinício automático de workers que falharam
  cluster.on('exit', (worker, code, signal) => {
    if (!worker.exitedAfterDisconnect) {
      console.error(`Worker ${worker.process.pid} died (${signal || code}). Restarting...`);
      cluster.fork();
    }
  });

  // Desligamento gracioso no SIGTERM
  process.on('SIGTERM', () => {
    console.log('Primary received SIGTERM. Shutting down workers...');
    for (const id in cluster.workers) {
      cluster.workers[id].disconnect();
    }
  });
} else {
  // Processo worker — iniciar o servidor HTTP
  const http = require('http');
  const server = http.createServer((req, res) => {
    res.writeHead(200);
    res.end(`Handled by worker ${process.pid}\n`);
  });

  server.listen(3000, () => {
    console.log(`Worker ${process.pid} listening on port 3000`);
  });

  // Desligamento gracioso do worker individual
  process.on('SIGTERM', () => {
    server.close(() => process.exit(0));
  });
}

Cada worker roda em seu próprio isolate V8 com memória separada. Os workers não compartilham estado — dados de sessão, caches e estado da aplicação devem residir em um armazenamento externo como Redis ou PostgreSQL. Esse isolamento também proporciona tolerância a falhas: um crash em um worker não afeta os demais.

Pronto para mandar bem nas entrevistas de Node.js / NestJS?

Pratique com nossos simuladores interativos, flashcards e testes tecnicos.

Explorar Node.js / NestJS

Worker Threads para tarefas intensivas em CPU

O módulo cluster duplica o processo inteiro. Os worker threads, introduzidos no Node.js 10 e estáveis desde o Node.js 12, executam JavaScript em threads paralelos dentro do mesmo processo. Eles compartilham memória por meio do SharedArrayBuffer e transferem dados via clonagem estruturada.

A distinção é importante: clusters servem para escalonar servidores HTTP ligados a I/O em múltiplos cores, enquanto worker threads servem para descarregar operações ligadas a CPU do event loop.

worker-pool.jsjavascript

// Pool de worker threads reutilizável para tarefas de CPU

const { Worker } = require('worker_threads');
const os = require('os');

class WorkerPool {
  constructor(workerScript, poolSize = os.cpus().length) {
    this.workers = [];
    this.queue = [];

    for (let i = 0; i < poolSize; i++) {
      this.workers.push({ busy: false, worker: new Worker(workerScript) });
    }
  }

  execute(taskData) {
    return new Promise((resolve, reject) => {
      const available = this.workers.find(w => !w.busy);

      if (available) {
        this._runTask(available, taskData, resolve, reject);
      } else {
        // Enfileirar a tarefa até que um worker esteja livre
        this.queue.push({ taskData, resolve, reject });
      }
    });
  }

  _runTask(entry, taskData, resolve, reject) {
    entry.busy = true;
    entry.worker.postMessage(taskData);

    const onMessage = (result) => {
      entry.busy = false;
      cleanup();
      resolve(result);
      this._processQueue();
    };

    const onError = (err) => {
      entry.busy = false;
      cleanup();
      reject(err);
      this._processQueue();
    };

    const cleanup = () => {
      entry.worker.removeListener('message', onMessage);
      entry.worker.removeListener('error', onError);
    };

    entry.worker.on('message', onMessage);
    entry.worker.on('error', onError);
  }

  _processQueue() {
    if (this.queue.length === 0) return;
    const available = this.workers.find(w => !w.busy);
    if (available) {
      const { taskData, resolve, reject } = this.queue.shift();
      this._runTask(available, taskData, resolve, reject);
    }
  }
}

module.exports = { WorkerPool };

image-worker.jsjavascript

// Worker thread para processamento de imagens intensivo em CPU

const { parentPort } = require('worker_threads');
const sharp = require('sharp');

parentPort.on('message', async ({ inputPath, width, height }) => {
  const result = await sharp(inputPath)
    .resize(width, height)
    .webp({ quality: 80 })
    .toBuffer();

  parentPort.postMessage({ size: result.length, buffer: result });
});

Um pool de workers pré-instancia as threads na inicialização e as reutiliza entre requisições. Isso evita a sobrecarga de 30-50 ms de criar uma nova worker thread por requisição. Para processamento de imagens, geração de PDF ou transformação de dados, esse padrão mantém a latência do event loop principal abaixo de 5 ms, mesmo sob carga de CPU sustentada.

Otimização de memória e ajuste do garbage collector

O V8 divide o heap em geração jovem (objetos de curta duração) e geração antiga (objetos de longa duração). A maioria dos problemas de performance provém de alocações excessivas na geração jovem, que disparam pausas frequentes de GC menor, ou de vazamentos de memória que fazem a geração antiga crescer até que pausas de GC maior causem picos de latência visíveis.

memory-optimization.jsjavascript

// Padrões que reduzem a pressão sobre o GC

// ANTI-PADRÃO: Criar objetos em loops críticos
function processItemsBad(items) {
  return items.map(item => ({
    id: item.id,
    name: item.name.trim(),
    score: calculateScore(item),
    metadata: { processed: true, timestamp: Date.now() }
  }));
}

// OTIMIZADO: Reutilizar buffers e minimizar alocações
const reusableBuffer = Buffer.alloc(4096);

function processItemsGood(items, output) {
  // Reutilizar o array de saída em vez de criar um novo
  output.length = 0;
  for (let i = 0; i < items.length; i++) {
    // Mutação in-place quando seguro
    output.push(items[i].id);
  }
  return output;
}

// Monitoramento do uso do heap para detecção de vazamentos
function checkMemory() {
  const used = process.memoryUsage();
  return {
    heapUsedMB: Math.round(used.heapUsed / 1024 / 1024),
    heapTotalMB: Math.round(used.heapTotal / 1024 / 1024),
    externalMB: Math.round(used.external / 1024 / 1024),
    rsssMB: Math.round(used.rss / 1024 / 1024),
  };
}

// Flags do V8 para ajuste do GC em produção
// node --max-old-space-size=4096 --max-semi-space-size=128 app.js
// --max-old-space-size: Limite da geração antiga (padrão ~1.7GB)
// --max-semi-space-size: Aumentar a geração jovem (padrão 16MB)

Aumentar --max-semi-space-size do padrão de 16 MB para 64-128 MB reduz a frequência de GC menor para aplicações com altas taxas de alocação. O trade-off é trocar memória por menor frequência de pausas do GC — uma decisão acertada em servidores com 8 GB+ de RAM.

Monitoramento em produção com OpenTelemetry no Node.js 24

O OpenTelemetry se consolidou como o framework de instrumentação padrão para Node.js em 2026. O runtime do Node.js 24 inclui suporte aprimorado de profiling com dados de cache inline nos perfis de CPU, tornando a análise de performance significativamente mais precisa.

otel-setup.jsjavascript

// Configuração do OpenTelemetry para monitoramento de performance Node.js

const { NodeSDK } = require('@opentelemetry/sdk-node');
const { getNodeAutoInstrumentations } = require('@opentelemetry/auto-instrumentations-node');
const { PrometheusExporter } = require('@opentelemetry/exporter-prometheus');
const { PeriodicExportingMetricReader } = require('@opentelemetry/sdk-metrics');

const sdk = new NodeSDK({
  metricReader: new PrometheusExporter({ port: 9464 }),
  instrumentations: [
    getNodeAutoInstrumentations({
      // Instrumentar HTTP, Express, DNS, fs e mais
      '@opentelemetry/instrumentation-fs': { enabled: false }, // Muito verboso
    }),
  ],
});

sdk.start();

// Métrica personalizada de lag do event loop
const { metrics } = require('@opentelemetry/api');
const meter = metrics.getMeter('app');

const eventLoopLag = meter.createHistogram('nodejs.event_loop.lag', {
  description: 'Event loop lag in milliseconds',
  unit: 'ms',
});

// Reportar o lag do event loop a cada segundo
const { monitorEventLoopDelay } = require('perf_hooks');
const h = monitorEventLoopDelay({ resolution: 10 });
h.enable();

setInterval(() => {
  eventLoopLag.record(h.percentile(99) / 1e6);
  h.reset();
}, 1000);

Essa configuração exporta o lag do event loop, a duração das requisições HTTP e o tempo de resolução DNS como métricas do Prometheus. Configurar alertas quando o lag p99 do event loop ultrapassa 100 ms permite detectar degradações antes que os usuários as percebam.

Armadilha de Cluster + Worker Threads

Cada worker do cluster recebe seu próprio pool de threads libuv (4 threads por padrão). Em uma máquina de 16 cores com 16 workers de cluster, são 64 threads libuv competindo por tempo de CPU. Recomenda-se configurar UV_THREADPOOL_SIZE para 2-4 por worker em ambientes com clustering, e reservar cores para os worker threads que lidam com tarefas de CPU.

Escolhendo entre clusters, worker threads e escalonamento externo

A estratégia de escalonamento correta depende do perfil da carga de trabalho. Uma matriz de decisão baseada em padrões reais de produção:

| Cenário | Estratégia | Razão | |---------|-----------|-------| | API HTTP, principalmente I/O | Módulo cluster (1 worker por core) | Maximiza o throughput de conexões | | Processamento de imagem/vídeo | Pool de worker threads (4-8 threads) | Mantém o event loop responsivo | | Pipeline de dados intensivo em CPU | Worker threads + SharedArrayBuffer | Compartilhamento de dados sem cópia | | Microsserviços em escala | Pods Kubernetes (contêineres mono-processo) | O orquestrador gerencia o escalonamento | | Misto I/O + CPU | Cluster + pool de workers por worker | Cada worker descarrega o CPU para threads |

Para deploys contêinerizados no Kubernetes, executar um único processo Node.js por contêiner (sem clustering) costuma ser mais simples e previsível. O orquestrador cuida do escalonamento horizontal, health checks e restarts progressivos. O clustering agrega valor ao rodar em bare metal ou VMs onde uma única máquina precisa maximizar a utilização dos cores.

Ganhos de performance do Node.js 24

O Node.js 24, lançado em 2025, traz o V8 12.4 com 8-12% de melhoria no throughput de cargas de API. O fetch() nativo agora utiliza Undici 7.0 com suporte a HTTP/2 e HTTP/3 por padrão. O modelo de permissões também permite bloquear o acesso ao sistema de arquivos e à rede por worker para defesa em profundidade.

Checklist de otimização prática para produção

Aplicar essas técnicas em ordem de impacto — saúde do event loop primeiro, depois escalonamento, depois ajuste fino — produz melhorias mensuráveis com risco mínimo.

Monitorar a utilização do event loop continuamente com performance.eventLoopUtilization() — alertar no limiar de 70%
Perfilar antes de otimizar — usar node --prof ou traces do OpenTelemetry para identificar os gargalos reais, não os supostos
Mover operações síncronas para fora da thread principal — crypto.pbkdf2, JSON.parse em payloads grandes, processamento de imagens pertencem aos worker threads
Configurar UV_THREADPOOL_SIZE conforme a carga — o padrão de 4 é muito baixo para aplicações com muito DNS ou I/O de arquivo, muito alto em configurações com clustering
Usar streaming para dados grandes — JSONStream, csv-parser e stream.pipeline() do Node.js evitam picos de memória em payloads grandes
Pré-aquecer pools de workers na inicialização — evitar a latência de cold start nas primeiras requisições a endpoints intensivos em CPU
Ajustar flags do heap do V8 para o deploy — --max-old-space-size e --max-semi-space-size conforme a memória disponível e os padrões de alocação
Implementar desligamento gracioso — drenar conexões no SIGTERM, fechar pools de banco de dados e permitir que requisições em andamento terminem antes da saída do processo

Comece a praticar!

Teste seus conhecimentos com nossos simuladores de entrevista e testes tecnicos.

Criar minha conta gratis

Conclusão

A performance do Node.js em 2026 se concentra em três fundamentos:

O event loop é o ponto único de falha para o throughput — monitorar sua utilização e eliminar bloqueios tem o maior impacto na latência
O clustering escala cargas ligadas a I/O em múltiplos cores; os worker threads descarregam tarefas ligadas a CPU do event loop — usar ambos juntos proporciona máxima utilização do hardware
O monitoramento em produção com OpenTelemetry e ferramentas de profiling do V8 transforma suposições em dados — configurar alertas sobre o lag p99 do event loop e a taxa de crescimento do heap
O Node.js 24 traz os ganhos de performance do V8 12.4, HTTP/3 estável via Undici 7, e um modelo de permissões maduro — atualizar a partir do Node.js 20 ou anterior oferece melhorias mensuráveis no throughput
Começar com performance.eventLoopUtilization() em qualquer aplicação Node.js existente — os resultados frequentemente revelam a otimização de maior impacto disponível

Para aprofundar a preparação para entrevistas de Node.js e NestJS, explorar o track tecnológico de Node.js & NestJS e o módulo de middleware e interceptadores para uma cobertura mais aprofundada dos padrões de arquitetura em produção. O guia de perguntas de entrevista backend Node.js cobre tópicos avançados adicionais frequentemente abordados em entrevistas de engenheiros seniores.

Performance do Node.js: Event Loop, Clustering e Otimização em 2026