Data Science & ML

NLP e Hugging Face

Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipeline, inference

24 domande da colloquio·
Senior
1

Qual è la funzione principale della tokenization nell'elaborazione del linguaggio naturale?

Risposta

La tokenization divide il testo grezzo in unità più piccole chiamate token, che possono essere parole, sub-parole o caratteri. Questo passaggio è essenziale perché i modelli linguistici non possono elaborare direttamente il testo grezzo. Ogni token viene poi convertito in un identificatore numerico che il modello può elaborare.

2

Qual è il principale vantaggio dell'algoritmo BPE (Byte Pair Encoding) rispetto alla tokenization a livello di parole?

Risposta

BPE gestisce le parole sconosciute (out-of-vocabulary) decomponendole in sub-unità conosciute. A differenza della tokenization a livello di parole che sostituisce le parole sconosciute con un token speciale [UNK], BPE può rappresentare qualsiasi parola come combinazione di sub-parole presenti nel vocabolario, consentendo così la generalizzazione a parole mai viste durante l'addestramento.

3

Qual è la differenza fondamentale tra WordPiece e BPE per la costruzione del vocabolario?

Risposta

BPE fonde le coppie di token più frequenti, mentre WordPiece sceglie le fusioni che massimizzano la verosimiglianza del corpus di addestramento. WordPiece utilizza quindi un criterio probabilistico anziché puramente frequenziale, il che può produrre divisioni leggermente diverse e potenzialmente più adatte al modello linguistico finale.

4

Qual è la principale differenza tra word embeddings statici (Word2Vec) ed embeddings contestuali (BERT)?

5

Quali sono i due task di pre-training utilizzati da BERT?

+21 domande da colloquio

Padroneggia Data Science & ML per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis