Question 1

Jaka jest główna zaleta mechanizmu attention nad RNN w przetwarzaniu sekwencji?

Accepted Answer

Mechanizm attention umożliwia bezpośredni dostęp do dowolnej pozycji w sekwencji, eliminując sekwencyjne wąskie gardło RNN. W przeciwieństwie do RNN, które muszą propagować informacje krok po kroku, attention oblicza bezpośrednie połączenia między wszystkimi pozycjami, umożliwiając masową paralelizację i przechwytywanie zależności dalekiego zasięgu bez degradacji gradientu.

Question 2

W mechanizmie attention, co reprezentują wektory Query (Q), Key (K) i Value (V)?

Accepted Answer

Query reprezentuje to, czego szuka token, Key reprezentuje to, co każdy token może zaoferować jako dopasowanie, a Value zawiera informację do pobrania. Wynik attention jest obliczany między Q i K w celu określenia względnej ważności, a następnie używany do ważenia V. Ta analogia pochodzi z systemów wyszukiwania informacji, gdzie zapytanie jest porównywane z kluczami w celu pobrania wartości.

Question 3

Jaki jest wzór na scaled dot-product attention i dlaczego dzielić przez pierwiastek z dk?

Accepted Answer

Wzór to Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Dzielenie przez sqrt(dk) jest kluczowe, ponieważ iloczyny skalarne wektorów wielowymiarowych mają tendencję do dużych wielkości, popychając softmax w obszary z bardzo małymi gradientami. Ta normalizacja utrzymuje stabilną wariancję wyników attention, zapewniając efektywne uczenie.

Transformers i Attention

Jaka jest główna zaleta mechanizmu attention nad RNN w przetwarzaniu sekwencji?

Odpowiedź

W mechanizmie attention, co reprezentują wektory Query (Q), Key (K) i Value (V)?

Odpowiedź

Jaki jest wzór na scaled dot-product attention i dlaczego dzielić przez pierwiastek z dk?

Odpowiedź

Jaka jest fundamentalna różnica między attention a self-attention?

Dlaczego używać multi-head attention zamiast pojedynczej głowicy attention?

Inne tematy rekrutacyjne Data Science & ML

Podstawy Pythona

Programowanie Obiektowe w Pythonie

Struktury danych Python

Podstawy Git

Podstawy SQL

Podstawy NumPy

Podstawy Pandas

Jupyter & Google Colab

SQL Joins i zaawansowane zapytania

Zaawansowany Pandas

Wizualizacja z Matplotlib & Seaborn

Interaktywne wizualizacje z Plotly

Statystyka opisowa

Statystyka inferencyjna

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Uczenie nadzorowane: Regresja

Uczenie nadzorowane: Klasyfikacja

Drzewa Decyzyjne i Ensembles

ML Nienadzorowane

Pipeline'y ML i walidacja

Szeregi czasowe i prognozowanie

Podstawy Deep Learning

TensorFlow & Keras

CNN i klasyfikacja obrazów

RNN i Sekwencje

NLP i Hugging Face

GenAI i LangChain

MLOps i Wdrożenie

Opanuj Data Science & ML na następną rozmowę