Data Science & ML

Transformers e Attention

Mecanismo de attention, self-attention, multi-head attention, arquitetura Transformer, positional encoding

24 perguntas de entrevista·
Senior
1

Qual é a principal vantagem do mecanismo de attention sobre as RNN para processamento de sequências?

Resposta

O mecanismo de attention permite acesso direto a qualquer posição na sequência, eliminando o gargalo sequencial das RNN. Diferentemente das RNN que devem propagar informação passo a passo, attention calcula conexões diretas entre todas as posições, permitindo paralelização massiva e capturando dependências de longo alcance sem degradação do gradiente.

2

No mecanismo de attention, o que representam os vetores Query (Q), Key (K) e Value (V)?

Resposta

Query representa o que o token está procurando, Key representa o que cada token pode oferecer como correspondência, e Value contém a informação a ser recuperada. O score de attention é calculado entre Q e K para determinar a importância relativa, depois usado para ponderar os V. Esta analogia vem dos sistemas de recuperação de informação onde uma query é comparada com keys para recuperar values.

3

Qual é a fórmula do scaled dot-product attention e por que dividir pela raiz quadrada de dk?

Resposta

A fórmula é Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Dividir por sqrt(dk) é crucial porque produtos escalares de vetores de alta dimensão tendem a ter magnitudes grandes, empurrando o softmax para regiões com gradientes muito pequenos. Esta normalização mantém variância estável dos scores de attention, garantindo aprendizagem eficiente.

4

Qual é a diferença fundamental entre attention e self-attention?

5

Por que usar multi-head attention em vez de uma única cabeça de attention?

+21 perguntas de entrevista

Domine Data Science & ML para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis