Question 1

Was ist der Hauptvorteil des Attention-Mechanismus gegenüber RNNs für die Sequenzverarbeitung?

Accepted Answer

Der Attention-Mechanismus ermöglicht direkten Zugriff auf jede Position in der Sequenz und beseitigt den sequenziellen Engpass von RNNs. Anders als RNNs, die Informationen Schritt für Schritt propagieren müssen, berechnet Attention direkte Verbindungen zwischen allen Positionen, ermöglicht massive Parallelisierung und erfasst Langstreckenabhängigkeiten ohne Gradientendegradation.

Question 2

Was repräsentieren die Query (Q), Key (K) und Value (V) Vektoren im Attention-Mechanismus?

Accepted Answer

Query repräsentiert, was der Token sucht, Key repräsentiert, was jeder Token als Übereinstimmung anbieten kann, und Value enthält die abzurufende Information. Der Attention-Score wird zwischen Q und K berechnet, um relative Wichtigkeit zu bestimmen, dann zur Gewichtung der V verwendet. Diese Analogie stammt aus Information-Retrieval-Systemen, in denen eine Query mit Keys verglichen wird, um Values abzurufen.

Question 3

Wie lautet die Formel für Scaled Dot-Product Attention und warum durch die Wurzel von dk dividieren?

Accepted Answer

Die Formel lautet Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Die Division durch sqrt(dk) ist entscheidend, da Skalarprodukte hochdimensionaler Vektoren tendenziell große Magnituden haben und Softmax in Bereiche mit sehr kleinen Gradienten drängen. Diese Normalisierung erhält eine stabile Varianz der Attention-Scores und gewährleistet effizientes Lernen.

Transformers & Attention

Was ist der Hauptvorteil des Attention-Mechanismus gegenüber RNNs für die Sequenzverarbeitung?

Antwort

Was repräsentieren die Query (Q), Key (K) und Value (V) Vektoren im Attention-Mechanismus?

Antwort

Wie lautet die Formel für Scaled Dot-Product Attention und warum durch die Wurzel von dk dividieren?

Antwort

Was ist der grundlegende Unterschied zwischen Attention und Self-Attention?

Warum Multi-Head Attention statt eines einzelnen Attention-Heads verwenden?

Weitere Data Science & ML-Interviewthemen

Python-Grundlagen

Python Objektorientierte Programmierung

Python-Datenstrukturen

Git-Grundlagen

SQL-Grundlagen

NumPy-Grundlagen

Pandas-Grundlagen

Jupyter & Google Colab

SQL Joins & fortgeschrittene Abfragen

Fortgeschrittenes Pandas

Visualisierung mit Matplotlib & Seaborn

Interaktive Visualisierungen mit Plotly

Deskriptive Statistik

Inferenzstatistik

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Überwachtes ML: Regression

Überwachtes ML: Klassifikation

Entscheidungsbäume & Ensembles

Unüberwachtes ML

ML-Pipelines & Validierung

Zeitreihen & Prognosen

Grundlagen des Deep Learning

TensorFlow & Keras

CNN und Bildklassifizierung

RNN & Sequenzen

NLP & Hugging Face

GenAI & LangChain

MLOps und Deployment

Meistere Data Science & ML für dein nächstes Interview