Data Science & ML

NLP & Hugging Face

Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference

24 questions d'entretien·
Senior
1

Quelle est la fonction principale de la tokenization dans le traitement du langage naturel ?

Réponse

La tokenization consiste à découper le texte brut en unités plus petites appelées tokens, qui peuvent être des mots, des sous-mots ou des caractères. Cette étape est essentielle car les modèles de langage ne peuvent pas traiter directement du texte brut. Chaque token est ensuite converti en un identifiant numérique que le modèle peut traiter.

2

Quel est l'avantage principal de l'algorithme BPE (Byte Pair Encoding) par rapport à la tokenization par mots ?

Réponse

BPE permet de gérer les mots inconnus (out-of-vocabulary) en les décomposant en sous-unités connues. Contrairement à la tokenization par mots qui remplace les mots inconnus par un token spécial [UNK], BPE peut représenter n'importe quel mot comme une combinaison de sous-mots présents dans le vocabulaire, permettant ainsi de généraliser à des mots jamais vus pendant l'entraînement.

3

Quelle est la différence fondamentale entre WordPiece et BPE pour la construction du vocabulaire ?

Réponse

BPE fusionne les paires de tokens les plus fréquentes, tandis que WordPiece choisit les fusions qui maximisent la vraisemblance du corpus d'entraînement. WordPiece utilise donc un critère probabiliste plutôt que purement fréquentiel, ce qui peut produire des découpages légèrement différents et potentiellement plus adaptés au modèle de langage final.

4

Quelle est la différence principale entre les word embeddings statiques (Word2Vec) et les embeddings contextuels (BERT) ?

5

Quelles sont les deux tâches de pré-entraînement utilisées par BERT ?

+21 questions d'entretien

Maîtrise Data Science & ML pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement