Question 1

Qual è il principale vantaggio del meccanismo di attention rispetto agli RNN per l'elaborazione di sequenze?

Accepted Answer

Il meccanismo di attention consente l'accesso diretto a qualsiasi posizione nella sequenza, eliminando il collo di bottiglia sequenziale degli RNN. A differenza degli RNN che devono propagare le informazioni passo dopo passo, attention calcola connessioni dirette tra tutte le posizioni, consentendo una massiccia parallelizzazione e catturando dipendenze a lungo raggio senza degradazione del gradiente.

Question 2

Nel meccanismo di attention, cosa rappresentano i vettori Query (Q), Key (K) e Value (V)?

Accepted Answer

Query rappresenta ciò che il token sta cercando, Key rappresenta ciò che ogni token può offrire come corrispondenza, e Value contiene l'informazione da recuperare. Lo score di attention è calcolato tra Q e K per determinare l'importanza relativa, poi usato per pesare i V. Questa analogia proviene dai sistemi di recupero informazioni dove una query è confrontata con keys per recuperare values.

Question 3

Qual è la formula dello scaled dot-product attention e perché dividere per la radice di dk?

Accepted Answer

La formula è Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Dividere per sqrt(dk) è cruciale perché i prodotti scalari di vettori ad alta dimensione tendono ad avere magnitudini elevate, spingendo softmax in regioni con gradienti molto piccoli. Questa normalizzazione mantiene una varianza stabile dei punteggi di attention, garantendo un apprendimento efficiente.

Transformers e Attention

Qual è il principale vantaggio del meccanismo di attention rispetto agli RNN per l'elaborazione di sequenze?

Risposta

Nel meccanismo di attention, cosa rappresentano i vettori Query (Q), Key (K) e Value (V)?

Risposta

Qual è la formula dello scaled dot-product attention e perché dividere per la radice di dk?

Risposta

Qual è la differenza fondamentale tra attention e self-attention?

Perché usare multi-head attention piuttosto che una singola attention head?

Altri argomenti di colloquio Data Science & ML

Fondamenti di Python

Programmazione Orientata agli Oggetti in Python

Strutture dati Python

Fondamenti di Git

Fondamenti di SQL

Fondamenti di NumPy

Fondamenti di Pandas

Jupyter & Google Colab

SQL Joins e query avanzate

Pandas avanzato

Visualizzazione con Matplotlib & Seaborn

Visualizzazioni interattive con Plotly

Statistica descrittiva

Statistica inferenziale

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisionato: Regressione

ML Supervisionato: Classificazione

Alberi Decisionali e Ensembles

ML Non Supervisionato

Pipeline ML e Validazione

Serie Temporali e Previsione

Fondamenti di Deep Learning

TensorFlow & Keras

CNN e classificazione di immagini

RNN e Sequenze

NLP e Hugging Face

GenAI e LangChain

MLOps e Deployment

Padroneggia Data Science & ML per il tuo prossimo colloquio