
Transformers i Attention
Mechanizm attention, self-attention, multi-head attention, architektura Transformer, positional encoding
1Jaka jest główna zaleta mechanizmu attention nad RNN w przetwarzaniu sekwencji?
Jaka jest główna zaleta mechanizmu attention nad RNN w przetwarzaniu sekwencji?
Odpowiedź
Mechanizm attention umożliwia bezpośredni dostęp do dowolnej pozycji w sekwencji, eliminując sekwencyjne wąskie gardło RNN. W przeciwieństwie do RNN, które muszą propagować informacje krok po kroku, attention oblicza bezpośrednie połączenia między wszystkimi pozycjami, umożliwiając masową paralelizację i przechwytywanie zależności dalekiego zasięgu bez degradacji gradientu.
2W mechanizmie attention, co reprezentują wektory Query (Q), Key (K) i Value (V)?
W mechanizmie attention, co reprezentują wektory Query (Q), Key (K) i Value (V)?
Odpowiedź
Query reprezentuje to, czego szuka token, Key reprezentuje to, co każdy token może zaoferować jako dopasowanie, a Value zawiera informację do pobrania. Wynik attention jest obliczany między Q i K w celu określenia względnej ważności, a następnie używany do ważenia V. Ta analogia pochodzi z systemów wyszukiwania informacji, gdzie zapytanie jest porównywane z kluczami w celu pobrania wartości.
3Jaki jest wzór na scaled dot-product attention i dlaczego dzielić przez pierwiastek z dk?
Jaki jest wzór na scaled dot-product attention i dlaczego dzielić przez pierwiastek z dk?
Odpowiedź
Wzór to Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Dzielenie przez sqrt(dk) jest kluczowe, ponieważ iloczyny skalarne wektorów wielowymiarowych mają tendencję do dużych wielkości, popychając softmax w obszary z bardzo małymi gradientami. Ta normalizacja utrzymuje stabilną wariancję wyników attention, zapewniając efektywne uczenie.
Jaka jest fundamentalna różnica między attention a self-attention?
Dlaczego używać multi-head attention zamiast pojedynczej głowicy attention?
+21 pytań z rozmów
Inne tematy rekrutacyjne Data Science & ML
Podstawy Pythona
Programowanie Obiektowe w Pythonie
Struktury danych Python
Podstawy Git
Podstawy SQL
Podstawy NumPy
Podstawy Pandas
Jupyter & Google Colab
SQL Joins i zaawansowane zapytania
Zaawansowany Pandas
Wizualizacja z Matplotlib & Seaborn
Interaktywne wizualizacje z Plotly
Statystyka opisowa
Statystyka inferencyjna
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Uczenie nadzorowane: Regresja
Uczenie nadzorowane: Klasyfikacja
Drzewa Decyzyjne i Ensembles
ML Nienadzorowane
Pipeline'y ML i walidacja
Szeregi czasowe i prognozowanie
Podstawy Deep Learning
TensorFlow & Keras
CNN i klasyfikacja obrazów
RNN i Sekwencje
NLP i Hugging Face
GenAI i LangChain
MLOps i Wdrożenie
Opanuj Data Science & ML na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo