Data Science & ML

NLPとHugging Face

Tokenization、embeddings、BERT、GPT、Hugging Face Transformers、fine-tuning、pipelines、inference

24 面接問題·
Senior
1

自然言語処理における tokenization の主な機能は何ですか?

回答

Tokenizationは、生のテキストをトークンと呼ばれる小さな単位に分割します。これらは単語、サブワード、または文字である可能性があります。このステップは、言語モデルが生のテキストを直接処理できないため不可欠です。各トークンは、モデルが処理できる数値識別子に変換されます。

2

単語レベルの tokenization に対する BPE (Byte Pair Encoding) アルゴリズムの主な利点は何ですか?

回答

BPEは、未知の単語(out-of-vocabulary)を既知のサブユニットに分解することで処理します。未知の単語を特殊な [UNK] トークンに置き換える単語レベルの tokenization とは異なり、BPEは語彙に含まれるサブワードの組み合わせとして任意の単語を表現でき、トレーニング中に見たことのない単語にも汎化できます。

3

語彙構築における WordPiece と BPE の根本的な違いは何ですか?

回答

BPEは最も頻繁なトークンペアをマージしますが、WordPieceはトレーニングコーパスの尤度を最大化するマージを選択します。したがって、WordPieceは純粋な頻度よりも確率的基準を使用し、わずかに異なる分割を生成し、最終的な言語モデルにより適している可能性があります。

4

静的な word embeddings (Word2Vec) と文脈的な embeddings (BERT) の主な違いは何ですか?

5

BERTで使用される2つの事前学習タスクは何ですか?

+21 面接問題

次の面接に向けてData Science & MLをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める