Question 1

自然言語処理における tokenization の主な機能は何ですか？

Accepted Answer

Tokenizationは、生のテキストをトークンと呼ばれる小さな単位に分割します。これらは単語、サブワード、または文字である可能性があります。このステップは、言語モデルが生のテキストを直接処理できないため不可欠です。各トークンは、モデルが処理できる数値識別子に変換されます。

Question 2

単語レベルの tokenization に対する BPE (Byte Pair Encoding) アルゴリズムの主な利点は何ですか？

Accepted Answer

BPEは、未知の単語（out-of-vocabulary）を既知のサブユニットに分解することで処理します。未知の単語を特殊な [UNK] トークンに置き換える単語レベルの tokenization とは異なり、BPEは語彙に含まれるサブワードの組み合わせとして任意の単語を表現でき、トレーニング中に見たことのない単語にも汎化できます。

Question 3

語彙構築における WordPiece と BPE の根本的な違いは何ですか？

Accepted Answer

BPEは最も頻繁なトークンペアをマージしますが、WordPieceはトレーニングコーパスの尤度を最大化するマージを選択します。したがって、WordPieceは純粋な頻度よりも確率的基準を使用し、わずかに異なる分割を生成し、最終的な言語モデルにより適している可能性があります。

NLPとHugging Face

自然言語処理における tokenization の主な機能は何ですか？

回答

単語レベルの tokenization に対する BPE (Byte Pair Encoding) アルゴリズムの主な利点は何ですか？

回答

語彙構築における WordPiece と BPE の根本的な違いは何ですか？

回答

静的な word embeddings (Word2Vec) と文脈的な embeddings (BERT) の主な違いは何ですか？

BERTで使用される2つの事前学習タスクは何ですか？

その他のData Science & ML面接トピック

Pythonの基礎

Pythonオブジェクト指向プログラミング

Pythonのデータ構造

Git の基礎

SQLの基礎

NumPyの基礎

Pandasの基礎

Jupyter & Google Colab

SQL Joinsと高度なクエリ

Pandas応用

Matplotlib & Seabornによる可視化

Plotlyによるインタラクティブな可視化

記述統計

推測統計学

Web Scraping

BigQuery & Cloud Data

Feature Engineering

教師あり機械学習：回帰

教師あり機械学習：分類

決定木とアンサンブル

教師なしML

MLパイプラインと検証

時系列と予測

Deep Learningの基礎

TensorFlow & Keras

CNN と画像分類

RNNとシーケンス

TransformersとAttention

GenAIとLangChain

MLOps とデプロイ

次の面接に向けてData Science & MLをマスター