Data Science & ML

NLP & Hugging Face

Tokenization, Embeddings, BERT, GPT, Hugging Face Transformers, Fine-Tuning, Pipelines, Inferenz

24 Interview-Fragen·
Senior
1

Was ist die Hauptfunktion der Tokenization in der natürlichen Sprachverarbeitung?

Antwort

Tokenization teilt Rohtext in kleinere Einheiten namens Tokens auf, die Wörter, Subwörter oder Zeichen sein können. Dieser Schritt ist essentiell, da Sprachmodelle Rohtext nicht direkt verarbeiten können. Jedes Token wird dann in einen numerischen Identifier umgewandelt, den das Modell verarbeiten kann.

2

Was ist der Hauptvorteil des BPE-Algorithmus (Byte Pair Encoding) gegenüber der Tokenization auf Wortebene?

Antwort

BPE handhabt unbekannte Wörter (out-of-vocabulary), indem es sie in bekannte Untereinheiten zerlegt. Anders als die Tokenization auf Wortebene, die unbekannte Wörter durch ein spezielles [UNK]-Token ersetzt, kann BPE jedes Wort als Kombination von im Vokabular vorhandenen Subwörtern darstellen, was die Verallgemeinerung auf Wörter ermöglicht, die während des Trainings nie gesehen wurden.

3

Was ist der grundlegende Unterschied zwischen WordPiece und BPE bei der Vokabularkonstruktion?

Antwort

BPE fusioniert die häufigsten Token-Paare, während WordPiece Fusionen wählt, die die Likelihood des Trainingskorpus maximieren. WordPiece verwendet somit ein probabilistisches Kriterium statt eines rein häufigkeitsbasierten, was leicht unterschiedliche Aufteilungen erzeugen kann, die möglicherweise besser für das endgültige Sprachmodell geeignet sind.

4

Was ist der Hauptunterschied zwischen statischen Word Embeddings (Word2Vec) und kontextuellen Embeddings (BERT)?

5

Was sind die beiden Pre-Training-Aufgaben, die BERT verwendet?

+21 Interview-Fragen

Meistere Data Science & ML für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten