Question 1

Wat is de hoofdfunctie van tokenization in natuurlijke taalverwerking?

Accepted Answer

Tokenization splitst ruwe tekst in kleinere eenheden genaamd tokens, die woorden, subwoorden of karakters kunnen zijn. Deze stap is essentieel omdat taalmodellen ruwe tekst niet direct kunnen verwerken. Elk token wordt vervolgens omgezet in een numerieke identifier die het model kan verwerken.

Question 2

Wat is het belangrijkste voordeel van het BPE-algoritme (Byte Pair Encoding) ten opzichte van tokenization op woordniveau?

Accepted Answer

BPE behandelt onbekende woorden (out-of-vocabulary) door ze te ontleden in bekende sub-eenheden. In tegenstelling tot tokenization op woordniveau die onbekende woorden vervangt door een speciaal [UNK]-token, kan BPE elk woord vertegenwoordigen als een combinatie van subwoorden die in het vocabulaire voorkomen, waardoor generalisatie naar woorden die nooit tijdens de training zijn gezien mogelijk is.

Question 3

Wat is het fundamentele verschil tussen WordPiece en BPE bij het opbouwen van het vocabulaire?

Accepted Answer

BPE voegt de meest voorkomende tokenparen samen, terwijl WordPiece samenvoegingen kiest die de likelihood van het trainingscorpus maximaliseren. WordPiece gebruikt dus een probabilistisch criterium in plaats van een puur frequentiegebaseerd criterium, wat licht verschillende splitsingen kan opleveren die mogelijk beter geschikt zijn voor het uiteindelijke taalmodel.

NLP & Hugging Face

Wat is de hoofdfunctie van tokenization in natuurlijke taalverwerking?

Antwoord

Wat is het belangrijkste voordeel van het BPE-algoritme (Byte Pair Encoding) ten opzichte van tokenization op woordniveau?

Antwoord

Wat is het fundamentele verschil tussen WordPiece en BPE bij het opbouwen van het vocabulaire?

Antwoord

Wat is het belangrijkste verschil tussen statische word embeddings (Word2Vec) en contextuele embeddings (BERT)?

Wat zijn de twee pre-training taken die door BERT worden gebruikt?

Andere Data Science & ML-sollicitatieonderwerpen

Python-basisbeginselen

Python Objectgeoriënteerd Programmeren

Python-datastructuren

Git-Fundamenten

SQL-basisbeginselen

NumPy-grondbeginselen

Pandas-basis

Jupyter & Google Colab

SQL Joins & geavanceerde queries

Geavanceerd Pandas

Visualisatie met Matplotlib & Seaborn

Interactieve visualisaties met Plotly

Beschrijvende statistiek

Inferentiële statistiek

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Supervised ML: Regressie

Supervised ML: Classificatie

Beslissingsbomen & Ensembles

Ongesuperviseerd ML

ML Pipelines & Validatie

Tijdreeksen & Voorspelling

Fundamenten van Deep Learning

TensorFlow & Keras

CNN en beeldclassificatie

RNN & Reeksen

Transformers & Attention

GenAI & LangChain

MLOps en Deployment

Beheers Data Science & ML voor je volgende gesprek