
NLP & Hugging Face
Tokenization, Embeddings, BERT, GPT, Hugging Face Transformers, Fine-Tuning, Pipelines, Inferenz
1Was ist die Hauptfunktion der Tokenization in der natürlichen Sprachverarbeitung?
Was ist die Hauptfunktion der Tokenization in der natürlichen Sprachverarbeitung?
Antwort
Tokenization teilt Rohtext in kleinere Einheiten namens Tokens auf, die Wörter, Subwörter oder Zeichen sein können. Dieser Schritt ist essentiell, da Sprachmodelle Rohtext nicht direkt verarbeiten können. Jedes Token wird dann in einen numerischen Identifier umgewandelt, den das Modell verarbeiten kann.
2Was ist der Hauptvorteil des BPE-Algorithmus (Byte Pair Encoding) gegenüber der Tokenization auf Wortebene?
Was ist der Hauptvorteil des BPE-Algorithmus (Byte Pair Encoding) gegenüber der Tokenization auf Wortebene?
Antwort
BPE handhabt unbekannte Wörter (out-of-vocabulary), indem es sie in bekannte Untereinheiten zerlegt. Anders als die Tokenization auf Wortebene, die unbekannte Wörter durch ein spezielles [UNK]-Token ersetzt, kann BPE jedes Wort als Kombination von im Vokabular vorhandenen Subwörtern darstellen, was die Verallgemeinerung auf Wörter ermöglicht, die während des Trainings nie gesehen wurden.
3Was ist der grundlegende Unterschied zwischen WordPiece und BPE bei der Vokabularkonstruktion?
Was ist der grundlegende Unterschied zwischen WordPiece und BPE bei der Vokabularkonstruktion?
Antwort
BPE fusioniert die häufigsten Token-Paare, während WordPiece Fusionen wählt, die die Likelihood des Trainingskorpus maximieren. WordPiece verwendet somit ein probabilistisches Kriterium statt eines rein häufigkeitsbasierten, was leicht unterschiedliche Aufteilungen erzeugen kann, die möglicherweise besser für das endgültige Sprachmodell geeignet sind.
Was ist der Hauptunterschied zwischen statischen Word Embeddings (Word2Vec) und kontextuellen Embeddings (BERT)?
Was sind die beiden Pre-Training-Aufgaben, die BERT verwendet?
+21 Interview-Fragen
Weitere Data Science & ML-Interviewthemen
Python-Grundlagen
Python Objektorientierte Programmierung
Python-Datenstrukturen
Git-Grundlagen
SQL-Grundlagen
NumPy-Grundlagen
Pandas-Grundlagen
Jupyter & Google Colab
SQL Joins & fortgeschrittene Abfragen
Fortgeschrittenes Pandas
Visualisierung mit Matplotlib & Seaborn
Interaktive Visualisierungen mit Plotly
Deskriptive Statistik
Inferenzstatistik
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Überwachtes ML: Regression
Überwachtes ML: Klassifikation
Entscheidungsbäume & Ensembles
Unüberwachtes ML
ML-Pipelines & Validierung
Zeitreihen & Prognosen
Grundlagen des Deep Learning
TensorFlow & Keras
CNN und Bildklassifizierung
RNN & Sequenzen
Transformers & Attention
GenAI & LangChain
MLOps und Deployment
Meistere Data Science & ML für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten