Data Science & ML

Transformers & Attention

Attention-mechanisme, self-attention, multi-head attention, Transformer-architectuur, positional encoding

24 gespreksvragen·
Senior
1

Wat is het belangrijkste voordeel van het attention-mechanisme ten opzichte van RNN's voor sequence-verwerking?

Antwoord

Het attention-mechanisme staat directe toegang tot elke positie in de sequence toe, waardoor het sequentiële knelpunt van RNN's wordt geëlimineerd. In tegenstelling tot RNN's die informatie stap voor stap moeten propageren, berekent attention directe verbindingen tussen alle posities, wat massale parallellisatie mogelijk maakt en lange-afstandsafhankelijkheden vastlegt zonder gradiëntdegradatie.

2

Wat vertegenwoordigen de Query (Q), Key (K) en Value (V) vectoren in het attention-mechanisme?

Antwoord

Query vertegenwoordigt waar de token naar zoekt, Key vertegenwoordigt wat elke token kan bieden als match, en Value bevat de op te halen informatie. De attention-score wordt berekend tussen Q en K om relatief belang te bepalen, vervolgens gebruikt om de V's te wegen. Deze analogie komt uit information retrieval-systemen waar een query wordt vergeleken met keys om values op te halen.

3

Wat is de formule voor scaled dot-product attention en waarom delen door de wortel van dk?

Antwoord

De formule is Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Delen door sqrt(dk) is cruciaal omdat scalaire producten van hoogdimensionale vectoren neigen naar grote magnitudes, waardoor softmax in regio's met zeer kleine gradiënten wordt geduwd. Deze normalisatie behoudt stabiele variantie van attention-scores en zorgt voor efficiënt leren.

4

Wat is het fundamentele verschil tussen attention en self-attention?

5

Waarom multi-head attention gebruiken in plaats van één attention head?

+21 gespreksvragen

Beheers Data Science & ML voor je volgende gesprek

Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.

Begin gratis