
Transformers & Attention
Attention-Mechanismus, Self-Attention, Multi-Head Attention, Transformer-Architektur, Positional Encoding
1Was ist der Hauptvorteil des Attention-Mechanismus gegenüber RNNs für die Sequenzverarbeitung?
Was ist der Hauptvorteil des Attention-Mechanismus gegenüber RNNs für die Sequenzverarbeitung?
Antwort
Der Attention-Mechanismus ermöglicht direkten Zugriff auf jede Position in der Sequenz und beseitigt den sequenziellen Engpass von RNNs. Anders als RNNs, die Informationen Schritt für Schritt propagieren müssen, berechnet Attention direkte Verbindungen zwischen allen Positionen, ermöglicht massive Parallelisierung und erfasst Langstreckenabhängigkeiten ohne Gradientendegradation.
2Was repräsentieren die Query (Q), Key (K) und Value (V) Vektoren im Attention-Mechanismus?
Was repräsentieren die Query (Q), Key (K) und Value (V) Vektoren im Attention-Mechanismus?
Antwort
Query repräsentiert, was der Token sucht, Key repräsentiert, was jeder Token als Übereinstimmung anbieten kann, und Value enthält die abzurufende Information. Der Attention-Score wird zwischen Q und K berechnet, um relative Wichtigkeit zu bestimmen, dann zur Gewichtung der V verwendet. Diese Analogie stammt aus Information-Retrieval-Systemen, in denen eine Query mit Keys verglichen wird, um Values abzurufen.
3Wie lautet die Formel für Scaled Dot-Product Attention und warum durch die Wurzel von dk dividieren?
Wie lautet die Formel für Scaled Dot-Product Attention und warum durch die Wurzel von dk dividieren?
Antwort
Die Formel lautet Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Die Division durch sqrt(dk) ist entscheidend, da Skalarprodukte hochdimensionaler Vektoren tendenziell große Magnituden haben und Softmax in Bereiche mit sehr kleinen Gradienten drängen. Diese Normalisierung erhält eine stabile Varianz der Attention-Scores und gewährleistet effizientes Lernen.
Was ist der grundlegende Unterschied zwischen Attention und Self-Attention?
Warum Multi-Head Attention statt eines einzelnen Attention-Heads verwenden?
+21 Interview-Fragen
Weitere Data Science & ML-Interviewthemen
Python-Grundlagen
Python Objektorientierte Programmierung
Python-Datenstrukturen
Git-Grundlagen
SQL-Grundlagen
NumPy-Grundlagen
Pandas-Grundlagen
Jupyter & Google Colab
SQL Joins & fortgeschrittene Abfragen
Fortgeschrittenes Pandas
Visualisierung mit Matplotlib & Seaborn
Interaktive Visualisierungen mit Plotly
Deskriptive Statistik
Inferenzstatistik
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Überwachtes ML: Regression
Überwachtes ML: Klassifikation
Entscheidungsbäume & Ensembles
Unüberwachtes ML
ML-Pipelines & Validierung
Zeitreihen & Prognosen
Grundlagen des Deep Learning
TensorFlow & Keras
CNN und Bildklassifizierung
RNN & Sequenzen
NLP & Hugging Face
GenAI & LangChain
MLOps und Deployment
Meistere Data Science & ML für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten