Data Science & ML

Transformers i Attention

Mechanizm attention, self-attention, multi-head attention, architektura Transformer, positional encoding

24 pytań z rozmów·
Senior
1

Jaka jest główna zaleta mechanizmu attention nad RNN w przetwarzaniu sekwencji?

Odpowiedź

Mechanizm attention umożliwia bezpośredni dostęp do dowolnej pozycji w sekwencji, eliminując sekwencyjne wąskie gardło RNN. W przeciwieństwie do RNN, które muszą propagować informacje krok po kroku, attention oblicza bezpośrednie połączenia między wszystkimi pozycjami, umożliwiając masową paralelizację i przechwytywanie zależności dalekiego zasięgu bez degradacji gradientu.

2

W mechanizmie attention, co reprezentują wektory Query (Q), Key (K) i Value (V)?

Odpowiedź

Query reprezentuje to, czego szuka token, Key reprezentuje to, co każdy token może zaoferować jako dopasowanie, a Value zawiera informację do pobrania. Wynik attention jest obliczany między Q i K w celu określenia względnej ważności, a następnie używany do ważenia V. Ta analogia pochodzi z systemów wyszukiwania informacji, gdzie zapytanie jest porównywane z kluczami w celu pobrania wartości.

3

Jaki jest wzór na scaled dot-product attention i dlaczego dzielić przez pierwiastek z dk?

Odpowiedź

Wzór to Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Dzielenie przez sqrt(dk) jest kluczowe, ponieważ iloczyny skalarne wektorów wielowymiarowych mają tendencję do dużych wielkości, popychając softmax w obszary z bardzo małymi gradientami. Ta normalizacja utrzymuje stabilną wariancję wyników attention, zapewniając efektywne uczenie.

4

Jaka jest fundamentalna różnica między attention a self-attention?

5

Dlaczego używać multi-head attention zamiast pojedynczej głowicy attention?

+21 pytań z rozmów

Opanuj Data Science & ML na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo