
Transformers e Attention
Meccanismo di attention, self-attention, multi-head attention, architettura Transformer, positional encoding
1Qual è il principale vantaggio del meccanismo di attention rispetto agli RNN per l'elaborazione di sequenze?
Qual è il principale vantaggio del meccanismo di attention rispetto agli RNN per l'elaborazione di sequenze?
Risposta
Il meccanismo di attention consente l'accesso diretto a qualsiasi posizione nella sequenza, eliminando il collo di bottiglia sequenziale degli RNN. A differenza degli RNN che devono propagare le informazioni passo dopo passo, attention calcola connessioni dirette tra tutte le posizioni, consentendo una massiccia parallelizzazione e catturando dipendenze a lungo raggio senza degradazione del gradiente.
2Nel meccanismo di attention, cosa rappresentano i vettori Query (Q), Key (K) e Value (V)?
Nel meccanismo di attention, cosa rappresentano i vettori Query (Q), Key (K) e Value (V)?
Risposta
Query rappresenta ciò che il token sta cercando, Key rappresenta ciò che ogni token può offrire come corrispondenza, e Value contiene l'informazione da recuperare. Lo score di attention è calcolato tra Q e K per determinare l'importanza relativa, poi usato per pesare i V. Questa analogia proviene dai sistemi di recupero informazioni dove una query è confrontata con keys per recuperare values.
3Qual è la formula dello scaled dot-product attention e perché dividere per la radice di dk?
Qual è la formula dello scaled dot-product attention e perché dividere per la radice di dk?
Risposta
La formula è Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Dividere per sqrt(dk) è cruciale perché i prodotti scalari di vettori ad alta dimensione tendono ad avere magnitudini elevate, spingendo softmax in regioni con gradienti molto piccoli. Questa normalizzazione mantiene una varianza stabile dei punteggi di attention, garantendo un apprendimento efficiente.
Qual è la differenza fondamentale tra attention e self-attention?
Perché usare multi-head attention piuttosto che una singola attention head?
+21 domande da colloquio
Altri argomenti di colloquio Data Science & ML
Fondamenti di Python
Programmazione Orientata agli Oggetti in Python
Strutture dati Python
Fondamenti di Git
Fondamenti di SQL
Fondamenti di NumPy
Fondamenti di Pandas
Jupyter & Google Colab
SQL Joins e query avanzate
Pandas avanzato
Visualizzazione con Matplotlib & Seaborn
Visualizzazioni interattive con Plotly
Statistica descrittiva
Statistica inferenziale
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisionato: Regressione
ML Supervisionato: Classificazione
Alberi Decisionali e Ensembles
ML Non Supervisionato
Pipeline ML e Validazione
Serie Temporali e Previsione
Fondamenti di Deep Learning
TensorFlow & Keras
CNN e classificazione di immagini
RNN e Sequenze
NLP e Hugging Face
GenAI e LangChain
MLOps e Deployment
Padroneggia Data Science & ML per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis