Question 1

Qual è la funzione principale della tokenization nell'elaborazione del linguaggio naturale?

Accepted Answer

La tokenization divide il testo grezzo in unità più piccole chiamate token, che possono essere parole, sub-parole o caratteri. Questo passaggio è essenziale perché i modelli linguistici non possono elaborare direttamente il testo grezzo. Ogni token viene poi convertito in un identificatore numerico che il modello può elaborare.

Question 2

Qual è il principale vantaggio dell'algoritmo BPE (Byte Pair Encoding) rispetto alla tokenization a livello di parole?

Accepted Answer

BPE gestisce le parole sconosciute (out-of-vocabulary) decomponendole in sub-unità conosciute. A differenza della tokenization a livello di parole che sostituisce le parole sconosciute con un token speciale [UNK], BPE può rappresentare qualsiasi parola come combinazione di sub-parole presenti nel vocabolario, consentendo così la generalizzazione a parole mai viste durante l'addestramento.

Question 3

Qual è la differenza fondamentale tra WordPiece e BPE per la costruzione del vocabolario?

Accepted Answer

BPE fonde le coppie di token più frequenti, mentre WordPiece sceglie le fusioni che massimizzano la verosimiglianza del corpus di addestramento. WordPiece utilizza quindi un criterio probabilistico anziché puramente frequenziale, il che può produrre divisioni leggermente diverse e potenzialmente più adatte al modello linguistico finale.

NLP e Hugging Face

Qual è la funzione principale della tokenization nell'elaborazione del linguaggio naturale?

Risposta

Qual è il principale vantaggio dell'algoritmo BPE (Byte Pair Encoding) rispetto alla tokenization a livello di parole?

Risposta

Qual è la differenza fondamentale tra WordPiece e BPE per la costruzione del vocabolario?

Risposta

Qual è la principale differenza tra word embeddings statici (Word2Vec) ed embeddings contestuali (BERT)?

Quali sono i due task di pre-training utilizzati da BERT?

Altri argomenti di colloquio Data Science & ML

Fondamenti di Python

Programmazione Orientata agli Oggetti in Python

Strutture dati Python

Fondamenti di Git

Fondamenti di SQL

Fondamenti di NumPy

Fondamenti di Pandas

Jupyter & Google Colab

SQL Joins e query avanzate

Pandas avanzato

Visualizzazione con Matplotlib & Seaborn

Visualizzazioni interattive con Plotly

Statistica descrittiva

Statistica inferenziale

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisionato: Regressione

ML Supervisionato: Classificazione

Alberi Decisionali e Ensembles

ML Non Supervisionato

Pipeline ML e Validazione

Serie Temporali e Previsione

Fondamenti di Deep Learning

TensorFlow & Keras

CNN e classificazione di immagini

RNN e Sequenze

Transformers e Attention

GenAI e LangChain

MLOps e Deployment

Padroneggia Data Science & ML per il tuo prossimo colloquio