
NLP & Hugging Face
Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference
1Wat is de hoofdfunctie van tokenization in natuurlijke taalverwerking?
Wat is de hoofdfunctie van tokenization in natuurlijke taalverwerking?
Antwoord
Tokenization splitst ruwe tekst in kleinere eenheden genaamd tokens, die woorden, subwoorden of karakters kunnen zijn. Deze stap is essentieel omdat taalmodellen ruwe tekst niet direct kunnen verwerken. Elk token wordt vervolgens omgezet in een numerieke identifier die het model kan verwerken.
2Wat is het belangrijkste voordeel van het BPE-algoritme (Byte Pair Encoding) ten opzichte van tokenization op woordniveau?
Wat is het belangrijkste voordeel van het BPE-algoritme (Byte Pair Encoding) ten opzichte van tokenization op woordniveau?
Antwoord
BPE behandelt onbekende woorden (out-of-vocabulary) door ze te ontleden in bekende sub-eenheden. In tegenstelling tot tokenization op woordniveau die onbekende woorden vervangt door een speciaal [UNK]-token, kan BPE elk woord vertegenwoordigen als een combinatie van subwoorden die in het vocabulaire voorkomen, waardoor generalisatie naar woorden die nooit tijdens de training zijn gezien mogelijk is.
3Wat is het fundamentele verschil tussen WordPiece en BPE bij het opbouwen van het vocabulaire?
Wat is het fundamentele verschil tussen WordPiece en BPE bij het opbouwen van het vocabulaire?
Antwoord
BPE voegt de meest voorkomende tokenparen samen, terwijl WordPiece samenvoegingen kiest die de likelihood van het trainingscorpus maximaliseren. WordPiece gebruikt dus een probabilistisch criterium in plaats van een puur frequentiegebaseerd criterium, wat licht verschillende splitsingen kan opleveren die mogelijk beter geschikt zijn voor het uiteindelijke taalmodel.
Wat is het belangrijkste verschil tussen statische word embeddings (Word2Vec) en contextuele embeddings (BERT)?
Wat zijn de twee pre-training taken die door BERT worden gebruikt?
+21 gespreksvragen
Andere Data Science & ML-sollicitatieonderwerpen
Python-basisbeginselen
Python Objectgeoriënteerd Programmeren
Python-datastructuren
Git-Fundamenten
SQL-basisbeginselen
NumPy-grondbeginselen
Pandas-basis
Jupyter & Google Colab
SQL Joins & geavanceerde queries
Geavanceerd Pandas
Visualisatie met Matplotlib & Seaborn
Interactieve visualisaties met Plotly
Beschrijvende statistiek
Inferentiële statistiek
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Supervised ML: Regressie
Supervised ML: Classificatie
Beslissingsbomen & Ensembles
Ongesuperviseerd ML
ML Pipelines & Validatie
Tijdreeksen & Voorspelling
Fundamenten van Deep Learning
TensorFlow & Keras
CNN en beeldclassificatie
RNN & Reeksen
Transformers & Attention
GenAI & LangChain
MLOps en Deployment
Beheers Data Science & ML voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis