Data Science & ML

Transformers e Attention

Meccanismo di attention, self-attention, multi-head attention, architettura Transformer, positional encoding

24 domande da colloquio·
Senior
1

Qual è il principale vantaggio del meccanismo di attention rispetto agli RNN per l'elaborazione di sequenze?

Risposta

Il meccanismo di attention consente l'accesso diretto a qualsiasi posizione nella sequenza, eliminando il collo di bottiglia sequenziale degli RNN. A differenza degli RNN che devono propagare le informazioni passo dopo passo, attention calcola connessioni dirette tra tutte le posizioni, consentendo una massiccia parallelizzazione e catturando dipendenze a lungo raggio senza degradazione del gradiente.

2

Nel meccanismo di attention, cosa rappresentano i vettori Query (Q), Key (K) e Value (V)?

Risposta

Query rappresenta ciò che il token sta cercando, Key rappresenta ciò che ogni token può offrire come corrispondenza, e Value contiene l'informazione da recuperare. Lo score di attention è calcolato tra Q e K per determinare l'importanza relativa, poi usato per pesare i V. Questa analogia proviene dai sistemi di recupero informazioni dove una query è confrontata con keys per recuperare values.

3

Qual è la formula dello scaled dot-product attention e perché dividere per la radice di dk?

Risposta

La formula è Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Dividere per sqrt(dk) è cruciale perché i prodotti scalari di vettori ad alta dimensione tendono ad avere magnitudini elevate, spingendo softmax in regioni con gradienti molto piccoli. Questa normalizzazione mantiene una varianza stabile dei punteggi di attention, garantendo un apprendimento efficiente.

4

Qual è la differenza fondamentale tra attention e self-attention?

5

Perché usare multi-head attention piuttosto che una singola attention head?

+21 domande da colloquio

Padroneggia Data Science & ML per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis