Question 1

Was ist die Hauptfunktion der Tokenization in der natürlichen Sprachverarbeitung?

Accepted Answer

Tokenization teilt Rohtext in kleinere Einheiten namens Tokens auf, die Wörter, Subwörter oder Zeichen sein können. Dieser Schritt ist essentiell, da Sprachmodelle Rohtext nicht direkt verarbeiten können. Jedes Token wird dann in einen numerischen Identifier umgewandelt, den das Modell verarbeiten kann.

Question 2

Was ist der Hauptvorteil des BPE-Algorithmus (Byte Pair Encoding) gegenüber der Tokenization auf Wortebene?

Accepted Answer

BPE handhabt unbekannte Wörter (out-of-vocabulary), indem es sie in bekannte Untereinheiten zerlegt. Anders als die Tokenization auf Wortebene, die unbekannte Wörter durch ein spezielles [UNK]-Token ersetzt, kann BPE jedes Wort als Kombination von im Vokabular vorhandenen Subwörtern darstellen, was die Verallgemeinerung auf Wörter ermöglicht, die während des Trainings nie gesehen wurden.

Question 3

Was ist der grundlegende Unterschied zwischen WordPiece und BPE bei der Vokabularkonstruktion?

Accepted Answer

BPE fusioniert die häufigsten Token-Paare, während WordPiece Fusionen wählt, die die Likelihood des Trainingskorpus maximieren. WordPiece verwendet somit ein probabilistisches Kriterium statt eines rein häufigkeitsbasierten, was leicht unterschiedliche Aufteilungen erzeugen kann, die möglicherweise besser für das endgültige Sprachmodell geeignet sind.

NLP & Hugging Face

Was ist die Hauptfunktion der Tokenization in der natürlichen Sprachverarbeitung?

Antwort

Was ist der Hauptvorteil des BPE-Algorithmus (Byte Pair Encoding) gegenüber der Tokenization auf Wortebene?

Antwort

Was ist der grundlegende Unterschied zwischen WordPiece und BPE bei der Vokabularkonstruktion?

Antwort

Was ist der Hauptunterschied zwischen statischen Word Embeddings (Word2Vec) und kontextuellen Embeddings (BERT)?

Was sind die beiden Pre-Training-Aufgaben, die BERT verwendet?

Weitere Data Science & ML-Interviewthemen

Python-Grundlagen

Python Objektorientierte Programmierung

Python-Datenstrukturen

Git-Grundlagen

SQL-Grundlagen

NumPy-Grundlagen

Pandas-Grundlagen

Jupyter & Google Colab

SQL Joins & fortgeschrittene Abfragen

Fortgeschrittenes Pandas

Visualisierung mit Matplotlib & Seaborn

Interaktive Visualisierungen mit Plotly

Deskriptive Statistik

Inferenzstatistik

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Überwachtes ML: Regression

Überwachtes ML: Klassifikation

Entscheidungsbäume & Ensembles

Unüberwachtes ML

ML-Pipelines & Validierung

Zeitreihen & Prognosen

Grundlagen des Deep Learning

TensorFlow & Keras

CNN und Bildklassifizierung

RNN & Sequenzen

Transformers & Attention

GenAI & LangChain

MLOps und Deployment

Meistere Data Science & ML für dein nächstes Interview