Data Science & ML

TransformersとAttention

attentionメカニズム、self-attention、multi-head attention、Transformerアーキテクチャ、positional encoding

24 面接問題·
Senior
1

シーケンス処理においてattentionメカニズムがRNNに対して持つ主な利点は何ですか?

回答

attentionメカニズムは、シーケンス内の任意の位置への直接アクセスを可能にし、RNNの順次処理のボトルネックを排除します。情報を段階的に伝播する必要があるRNNとは異なり、attentionはすべての位置間の直接的な接続を計算し、大規模な並列化を可能にし、勾配の劣化なしに長距離依存関係を捉えます。

2

attentionメカニズムにおいて、Query (Q)、Key (K)、Value (V) のベクトルは何を表しますか?

回答

Queryはトークンが探しているものを表し、Keyは各トークンが一致として提供できるものを表し、Valueは取得すべき情報を含みます。attentionスコアはQとKの間で計算され、相対的な重要度を決定し、Vに重み付けします。このアナロジーは、クエリがキーと比較されて値を取得する情報検索システムから来ています。

3

scaled dot-product attentionの式は何ですか、そしてなぜdkの平方根で割るのですか?

回答

式はAttention(Q,K,V) = softmax(QK^T / sqrt(dk)) * Vです。sqrt(dk)で割ることは重要です。なぜなら、高次元ベクトルのドット積は大きな値を持つ傾向があり、softmaxを非常に小さな勾配の領域に押しやるためです。この正規化はattentionスコアの分散を安定させ、効率的な学習を保証します。

4

attentionとself-attentionの基本的な違いは何ですか?

5

なぜ単一のattentionヘッドではなくmulti-head attentionを使うのですか?

+21 面接問題

次の面接に向けてData Science & MLをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める