Question 1

Qual é a principal vantagem do mecanismo de attention sobre as RNN para processamento de sequências?

Accepted Answer

O mecanismo de attention permite acesso direto a qualquer posição na sequência, eliminando o gargalo sequencial das RNN. Diferentemente das RNN que devem propagar informação passo a passo, attention calcula conexões diretas entre todas as posições, permitindo paralelização massiva e capturando dependências de longo alcance sem degradação do gradiente.

Question 2

No mecanismo de attention, o que representam os vetores Query (Q), Key (K) e Value (V)?

Accepted Answer

Query representa o que o token está procurando, Key representa o que cada token pode oferecer como correspondência, e Value contém a informação a ser recuperada. O score de attention é calculado entre Q e K para determinar a importância relativa, depois usado para ponderar os V. Esta analogia vem dos sistemas de recuperação de informação onde uma query é comparada com keys para recuperar values.

Question 3

Qual é a fórmula do scaled dot-product attention e por que dividir pela raiz quadrada de dk?

Accepted Answer

A fórmula é Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Dividir por sqrt(dk) é crucial porque produtos escalares de vetores de alta dimensão tendem a ter magnitudes grandes, empurrando o softmax para regiões com gradientes muito pequenos. Esta normalização mantém variância estável dos scores de attention, garantindo aprendizagem eficiente.

Transformers e Attention

Qual é a principal vantagem do mecanismo de attention sobre as RNN para processamento de sequências?

Resposta

No mecanismo de attention, o que representam os vetores Query (Q), Key (K) e Value (V)?

Resposta

Qual é a fórmula do scaled dot-product attention e por que dividir pela raiz quadrada de dk?

Resposta

Qual é a diferença fundamental entre attention e self-attention?

Por que usar multi-head attention em vez de uma única cabeça de attention?

Outros temas de entrevista Data Science & ML

Fundamentos de Python

Programação Orientada a Objetos em Python

Estruturas de dados em Python

Fundamentos do Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins e consultas avançadas

Pandas avançado

Visualização com Matplotlib & Seaborn

Visualizações interativas com Plotly

Estatística descritiva

Estatística inferencial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisionado: Regressão

ML Supervisionado: Classificação

Árvores de Decisão e Ensembles

ML Não Supervisionado

Pipelines ML e Validação

Séries Temporais e Previsão

Fundamentos de Deep Learning

TensorFlow & Keras

CNN e classificação de imagens

RNN e Sequências

NLP e Hugging Face

GenAI e LangChain

MLOps e Implantação

Domine Data Science & ML para sua proxima entrevista