Data Science & ML

Transformers & Attention

Attention-Mechanismus, Self-Attention, Multi-Head Attention, Transformer-Architektur, Positional Encoding

24 Interview-Fragen·
Senior
1

Was ist der Hauptvorteil des Attention-Mechanismus gegenüber RNNs für die Sequenzverarbeitung?

Antwort

Der Attention-Mechanismus ermöglicht direkten Zugriff auf jede Position in der Sequenz und beseitigt den sequenziellen Engpass von RNNs. Anders als RNNs, die Informationen Schritt für Schritt propagieren müssen, berechnet Attention direkte Verbindungen zwischen allen Positionen, ermöglicht massive Parallelisierung und erfasst Langstreckenabhängigkeiten ohne Gradientendegradation.

2

Was repräsentieren die Query (Q), Key (K) und Value (V) Vektoren im Attention-Mechanismus?

Antwort

Query repräsentiert, was der Token sucht, Key repräsentiert, was jeder Token als Übereinstimmung anbieten kann, und Value enthält die abzurufende Information. Der Attention-Score wird zwischen Q und K berechnet, um relative Wichtigkeit zu bestimmen, dann zur Gewichtung der V verwendet. Diese Analogie stammt aus Information-Retrieval-Systemen, in denen eine Query mit Keys verglichen wird, um Values abzurufen.

3

Wie lautet die Formel für Scaled Dot-Product Attention und warum durch die Wurzel von dk dividieren?

Antwort

Die Formel lautet Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Die Division durch sqrt(dk) ist entscheidend, da Skalarprodukte hochdimensionaler Vektoren tendenziell große Magnituden haben und Softmax in Bereiche mit sehr kleinen Gradienten drängen. Diese Normalisierung erhält eine stabile Varianz der Attention-Scores und gewährleistet effizientes Lernen.

4

Was ist der grundlegende Unterschied zwischen Attention und Self-Attention?

5

Warum Multi-Head Attention statt eines einzelnen Attention-Heads verwenden?

+21 Interview-Fragen

Meistere Data Science & ML für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten