Question 1

シーケンス処理においてattentionメカニズムがRNNに対して持つ主な利点は何ですか?

Accepted Answer

attentionメカニズムは、シーケンス内の任意の位置への直接アクセスを可能にし、RNNの順次処理のボトルネックを排除します。情報を段階的に伝播する必要があるRNNとは異なり、attentionはすべての位置間の直接的な接続を計算し、大規模な並列化を可能にし、勾配の劣化なしに長距離依存関係を捉えます。

Question 2

attentionメカニズムにおいて、Query (Q)、Key (K)、Value (V) のベクトルは何を表しますか?

Accepted Answer

Queryはトークンが探しているものを表し、Keyは各トークンが一致として提供できるものを表し、Valueは取得すべき情報を含みます。attentionスコアはQとKの間で計算され、相対的な重要度を決定し、Vに重み付けします。このアナロジーは、クエリがキーと比較されて値を取得する情報検索システムから来ています。

Question 3

scaled dot-product attentionの式は何ですか、そしてなぜdkの平方根で割るのですか?

Accepted Answer

式はAttention(Q,K,V) = softmax(QK^T / sqrt(dk)) * Vです。sqrt(dk)で割ることは重要です。なぜなら、高次元ベクトルのドット積は大きな値を持つ傾向があり、softmaxを非常に小さな勾配の領域に押しやるためです。この正規化はattentionスコアの分散を安定させ、効率的な学習を保証します。

TransformersとAttention

シーケンス処理においてattentionメカニズムがRNNに対して持つ主な利点は何ですか?

回答

attentionメカニズムにおいて、Query (Q)、Key (K)、Value (V) のベクトルは何を表しますか?

回答

scaled dot-product attentionの式は何ですか、そしてなぜdkの平方根で割るのですか?

回答

attentionとself-attentionの基本的な違いは何ですか?

なぜ単一のattentionヘッドではなくmulti-head attentionを使うのですか?

その他のData Science & ML面接トピック

Pythonの基礎

Pythonオブジェクト指向プログラミング

Pythonのデータ構造

Git の基礎

SQLの基礎

NumPyの基礎

Pandasの基礎

Jupyter & Google Colab

SQL Joinsと高度なクエリ

Pandas応用

Matplotlib & Seabornによる可視化

Plotlyによるインタラクティブな可視化

記述統計

推測統計学

Web Scraping

BigQuery & Cloud Data

Feature Engineering

教師あり機械学習：回帰

教師あり機械学習：分類

決定木とアンサンブル

教師なしML

MLパイプラインと検証

時系列と予測

Deep Learningの基礎

TensorFlow & Keras

CNN と画像分類

RNNとシーケンス

NLPとHugging Face

GenAIとLangChain

MLOps とデプロイ

次の面接に向けてData Science & MLをマスター