
NLPとHugging Face
Tokenization、embeddings、BERT、GPT、Hugging Face Transformers、fine-tuning、pipelines、inference
24 面接問題·
Senior
1自然言語処理における tokenization の主な機能は何ですか?
1
自然言語処理における tokenization の主な機能は何ですか?
回答
Tokenizationは、生のテキストをトークンと呼ばれる小さな単位に分割します。これらは単語、サブワード、または文字である可能性があります。このステップは、言語モデルが生のテキストを直接処理できないため不可欠です。各トークンは、モデルが処理できる数値識別子に変換されます。
2単語レベルの tokenization に対する BPE (Byte Pair Encoding) アルゴリズムの主な利点は何ですか?
2
単語レベルの tokenization に対する BPE (Byte Pair Encoding) アルゴリズムの主な利点は何ですか?
回答
BPEは、未知の単語(out-of-vocabulary)を既知のサブユニットに分解することで処理します。未知の単語を特殊な [UNK] トークンに置き換える単語レベルの tokenization とは異なり、BPEは語彙に含まれるサブワードの組み合わせとして任意の単語を表現でき、トレーニング中に見たことのない単語にも汎化できます。
3語彙構築における WordPiece と BPE の根本的な違いは何ですか?
3
語彙構築における WordPiece と BPE の根本的な違いは何ですか?
回答
BPEは最も頻繁なトークンペアをマージしますが、WordPieceはトレーニングコーパスの尤度を最大化するマージを選択します。したがって、WordPieceは純粋な頻度よりも確率的基準を使用し、わずかに異なる分割を生成し、最終的な言語モデルにより適している可能性があります。
4
静的な word embeddings (Word2Vec) と文脈的な embeddings (BERT) の主な違いは何ですか?
5
BERTで使用される2つの事前学習タスクは何ですか?
+21 面接問題
その他のData Science & ML面接トピック
Pythonの基礎
Junior
25問Pythonオブジェクト指向プログラミング
Junior
20問Pythonのデータ構造
Junior
20問Git の基礎
Junior
18問SQLの基礎
Junior
20問NumPyの基礎
Junior
22問Pandasの基礎
Junior
22問Jupyter & Google Colab
Junior
16問SQL Joinsと高度なクエリ
Mid-Level
22問Pandas応用
Mid-Level
24問Matplotlib & Seabornによる可視化
Mid-Level
20問Plotlyによるインタラクティブな可視化
Mid-Level
18問記述統計
Mid-Level
20問推測統計学
Mid-Level
24問Web Scraping
Mid-Level
18問BigQuery & Cloud Data
Mid-Level
18問Feature Engineering
Mid-Level
22問教師あり機械学習:回帰
Mid-Level
24問教師あり機械学習:分類
Mid-Level
24問決定木とアンサンブル
Mid-Level
24問教師なしML
Mid-Level
22問MLパイプラインと検証
Mid-Level
22問時系列と予測
Mid-Level
22問Deep Learningの基礎
Senior
24問TensorFlow & Keras
Senior
22問CNN と画像分類
Senior
24問RNNとシーケンス
Senior
22問TransformersとAttention
Senior
24問GenAIとLangChain
Senior
24問MLOps とデプロイ
Senior
24問