
NLP e Hugging Face
Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipeline, inference
1Qual è la funzione principale della tokenization nell'elaborazione del linguaggio naturale?
Qual è la funzione principale della tokenization nell'elaborazione del linguaggio naturale?
Risposta
La tokenization divide il testo grezzo in unità più piccole chiamate token, che possono essere parole, sub-parole o caratteri. Questo passaggio è essenziale perché i modelli linguistici non possono elaborare direttamente il testo grezzo. Ogni token viene poi convertito in un identificatore numerico che il modello può elaborare.
2Qual è il principale vantaggio dell'algoritmo BPE (Byte Pair Encoding) rispetto alla tokenization a livello di parole?
Qual è il principale vantaggio dell'algoritmo BPE (Byte Pair Encoding) rispetto alla tokenization a livello di parole?
Risposta
BPE gestisce le parole sconosciute (out-of-vocabulary) decomponendole in sub-unità conosciute. A differenza della tokenization a livello di parole che sostituisce le parole sconosciute con un token speciale [UNK], BPE può rappresentare qualsiasi parola come combinazione di sub-parole presenti nel vocabolario, consentendo così la generalizzazione a parole mai viste durante l'addestramento.
3Qual è la differenza fondamentale tra WordPiece e BPE per la costruzione del vocabolario?
Qual è la differenza fondamentale tra WordPiece e BPE per la costruzione del vocabolario?
Risposta
BPE fonde le coppie di token più frequenti, mentre WordPiece sceglie le fusioni che massimizzano la verosimiglianza del corpus di addestramento. WordPiece utilizza quindi un criterio probabilistico anziché puramente frequenziale, il che può produrre divisioni leggermente diverse e potenzialmente più adatte al modello linguistico finale.
Qual è la principale differenza tra word embeddings statici (Word2Vec) ed embeddings contestuali (BERT)?
Quali sono i due task di pre-training utilizzati da BERT?
+21 domande da colloquio
Altri argomenti di colloquio Data Science & ML
Fondamenti di Python
Programmazione Orientata agli Oggetti in Python
Strutture dati Python
Fondamenti di Git
Fondamenti di SQL
Fondamenti di NumPy
Fondamenti di Pandas
Jupyter & Google Colab
SQL Joins e query avanzate
Pandas avanzato
Visualizzazione con Matplotlib & Seaborn
Visualizzazioni interattive con Plotly
Statistica descrittiva
Statistica inferenziale
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisionato: Regressione
ML Supervisionato: Classificazione
Alberi Decisionali e Ensembles
ML Non Supervisionato
Pipeline ML e Validazione
Serie Temporali e Previsione
Fondamenti di Deep Learning
TensorFlow & Keras
CNN e classificazione di immagini
RNN e Sequenze
Transformers e Attention
GenAI e LangChain
MLOps e Deployment
Padroneggia Data Science & ML per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis