
Transformers e Attention
Mecanismo de attention, self-attention, multi-head attention, arquitetura Transformer, positional encoding
1Qual é a principal vantagem do mecanismo de attention sobre as RNN para processamento de sequências?
Qual é a principal vantagem do mecanismo de attention sobre as RNN para processamento de sequências?
Resposta
O mecanismo de attention permite acesso direto a qualquer posição na sequência, eliminando o gargalo sequencial das RNN. Diferentemente das RNN que devem propagar informação passo a passo, attention calcula conexões diretas entre todas as posições, permitindo paralelização massiva e capturando dependências de longo alcance sem degradação do gradiente.
2No mecanismo de attention, o que representam os vetores Query (Q), Key (K) e Value (V)?
No mecanismo de attention, o que representam os vetores Query (Q), Key (K) e Value (V)?
Resposta
Query representa o que o token está procurando, Key representa o que cada token pode oferecer como correspondência, e Value contém a informação a ser recuperada. O score de attention é calculado entre Q e K para determinar a importância relativa, depois usado para ponderar os V. Esta analogia vem dos sistemas de recuperação de informação onde uma query é comparada com keys para recuperar values.
3Qual é a fórmula do scaled dot-product attention e por que dividir pela raiz quadrada de dk?
Qual é a fórmula do scaled dot-product attention e por que dividir pela raiz quadrada de dk?
Resposta
A fórmula é Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Dividir por sqrt(dk) é crucial porque produtos escalares de vetores de alta dimensão tendem a ter magnitudes grandes, empurrando o softmax para regiões com gradientes muito pequenos. Esta normalização mantém variância estável dos scores de attention, garantindo aprendizagem eficiente.
Qual é a diferença fundamental entre attention e self-attention?
Por que usar multi-head attention em vez de uma única cabeça de attention?
+21 perguntas de entrevista
Outros temas de entrevista Data Science & ML
Fundamentos de Python
Programação Orientada a Objetos em Python
Estruturas de dados em Python
Fundamentos do Git
Fundamentos de SQL
Fundamentos de NumPy
Fundamentos de Pandas
Jupyter & Google Colab
SQL Joins e consultas avançadas
Pandas avançado
Visualização com Matplotlib & Seaborn
Visualizações interativas com Plotly
Estatística descritiva
Estatística inferencial
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisionado: Regressão
ML Supervisionado: Classificação
Árvores de Decisão e Ensembles
ML Não Supervisionado
Pipelines ML e Validação
Séries Temporais e Previsão
Fundamentos de Deep Learning
TensorFlow & Keras
CNN e classificação de imagens
RNN e Sequências
NLP e Hugging Face
GenAI e LangChain
MLOps e Implantação
Domine Data Science & ML para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis