
TransformersとAttention
attentionメカニズム、self-attention、multi-head attention、Transformerアーキテクチャ、positional encoding
24 面接問題·
Senior
1シーケンス処理においてattentionメカニズムがRNNに対して持つ主な利点は何ですか?
1
シーケンス処理においてattentionメカニズムがRNNに対して持つ主な利点は何ですか?
回答
attentionメカニズムは、シーケンス内の任意の位置への直接アクセスを可能にし、RNNの順次処理のボトルネックを排除します。情報を段階的に伝播する必要があるRNNとは異なり、attentionはすべての位置間の直接的な接続を計算し、大規模な並列化を可能にし、勾配の劣化なしに長距離依存関係を捉えます。
2attentionメカニズムにおいて、Query (Q)、Key (K)、Value (V) のベクトルは何を表しますか?
2
attentionメカニズムにおいて、Query (Q)、Key (K)、Value (V) のベクトルは何を表しますか?
回答
Queryはトークンが探しているものを表し、Keyは各トークンが一致として提供できるものを表し、Valueは取得すべき情報を含みます。attentionスコアはQとKの間で計算され、相対的な重要度を決定し、Vに重み付けします。このアナロジーは、クエリがキーと比較されて値を取得する情報検索システムから来ています。
3scaled dot-product attentionの式は何ですか、そしてなぜdkの平方根で割るのですか?
3
scaled dot-product attentionの式は何ですか、そしてなぜdkの平方根で割るのですか?
回答
式はAttention(Q,K,V) = softmax(QK^T / sqrt(dk)) * Vです。sqrt(dk)で割ることは重要です。なぜなら、高次元ベクトルのドット積は大きな値を持つ傾向があり、softmaxを非常に小さな勾配の領域に押しやるためです。この正規化はattentionスコアの分散を安定させ、効率的な学習を保証します。
4
attentionとself-attentionの基本的な違いは何ですか?
5
なぜ単一のattentionヘッドではなくmulti-head attentionを使うのですか?
+21 面接問題
その他のData Science & ML面接トピック
Pythonの基礎
Junior
25問Pythonオブジェクト指向プログラミング
Junior
20問Pythonのデータ構造
Junior
20問Git の基礎
Junior
18問SQLの基礎
Junior
20問NumPyの基礎
Junior
22問Pandasの基礎
Junior
22問Jupyter & Google Colab
Junior
16問SQL Joinsと高度なクエリ
Mid-Level
22問Pandas応用
Mid-Level
24問Matplotlib & Seabornによる可視化
Mid-Level
20問Plotlyによるインタラクティブな可視化
Mid-Level
18問記述統計
Mid-Level
20問推測統計学
Mid-Level
24問Web Scraping
Mid-Level
18問BigQuery & Cloud Data
Mid-Level
18問Feature Engineering
Mid-Level
22問教師あり機械学習:回帰
Mid-Level
24問教師あり機械学習:分類
Mid-Level
24問決定木とアンサンブル
Mid-Level
24問教師なしML
Mid-Level
22問MLパイプラインと検証
Mid-Level
22問時系列と予測
Mid-Level
22問Deep Learningの基礎
Senior
24問TensorFlow & Keras
Senior
22問CNN と画像分類
Senior
24問RNNとシーケンス
Senior
22問NLPとHugging Face
Senior
24問GenAIとLangChain
Senior
24問MLOps とデプロイ
Senior
24問