Data Science & ML

NLP & Hugging Face

Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference

24 gespreksvragen·
Senior
1

Wat is de hoofdfunctie van tokenization in natuurlijke taalverwerking?

Antwoord

Tokenization splitst ruwe tekst in kleinere eenheden genaamd tokens, die woorden, subwoorden of karakters kunnen zijn. Deze stap is essentieel omdat taalmodellen ruwe tekst niet direct kunnen verwerken. Elk token wordt vervolgens omgezet in een numerieke identifier die het model kan verwerken.

2

Wat is het belangrijkste voordeel van het BPE-algoritme (Byte Pair Encoding) ten opzichte van tokenization op woordniveau?

Antwoord

BPE behandelt onbekende woorden (out-of-vocabulary) door ze te ontleden in bekende sub-eenheden. In tegenstelling tot tokenization op woordniveau die onbekende woorden vervangt door een speciaal [UNK]-token, kan BPE elk woord vertegenwoordigen als een combinatie van subwoorden die in het vocabulaire voorkomen, waardoor generalisatie naar woorden die nooit tijdens de training zijn gezien mogelijk is.

3

Wat is het fundamentele verschil tussen WordPiece en BPE bij het opbouwen van het vocabulaire?

Antwoord

BPE voegt de meest voorkomende tokenparen samen, terwijl WordPiece samenvoegingen kiest die de likelihood van het trainingscorpus maximaliseren. WordPiece gebruikt dus een probabilistisch criterium in plaats van een puur frequentiegebaseerd criterium, wat licht verschillende splitsingen kan opleveren die mogelijk beter geschikt zijn voor het uiteindelijke taalmodel.

4

Wat is het belangrijkste verschil tussen statische word embeddings (Word2Vec) en contextuele embeddings (BERT)?

5

Wat zijn de twee pre-training taken die door BERT worden gebruikt?

+21 gespreksvragen

Beheers Data Science & ML voor je volgende gesprek

Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.

Begin gratis