Question 1

Quelle est la fonction principale de la tokenization dans le traitement du langage naturel ?

Accepted Answer

La tokenization consiste à découper le texte brut en unités plus petites appelées tokens, qui peuvent être des mots, des sous-mots ou des caractères. Cette étape est essentielle car les modèles de langage ne peuvent pas traiter directement du texte brut. Chaque token est ensuite converti en un identifiant numérique que le modèle peut traiter.

Question 2

Quel est l'avantage principal de l'algorithme BPE (Byte Pair Encoding) par rapport à la tokenization par mots ?

Accepted Answer

BPE permet de gérer les mots inconnus (out-of-vocabulary) en les décomposant en sous-unités connues. Contrairement à la tokenization par mots qui remplace les mots inconnus par un token spécial [UNK], BPE peut représenter n'importe quel mot comme une combinaison de sous-mots présents dans le vocabulaire, permettant ainsi de généraliser à des mots jamais vus pendant l'entraînement.

Question 3

Quelle est la différence fondamentale entre WordPiece et BPE pour la construction du vocabulaire ?

Accepted Answer

BPE fusionne les paires de tokens les plus fréquentes, tandis que WordPiece choisit les fusions qui maximisent la vraisemblance du corpus d'entraînement. WordPiece utilise donc un critère probabiliste plutôt que purement fréquentiel, ce qui peut produire des découpages légèrement différents et potentiellement plus adaptés au modèle de langage final.

NLP & Hugging Face

Quelle est la fonction principale de la tokenization dans le traitement du langage naturel ?

Réponse

Quel est l'avantage principal de l'algorithme BPE (Byte Pair Encoding) par rapport à la tokenization par mots ?

Réponse

Quelle est la différence fondamentale entre WordPiece et BPE pour la construction du vocabulaire ?

Réponse

Quelle est la différence principale entre les word embeddings statiques (Word2Vec) et les embeddings contextuels (BERT) ?

Quelles sont les deux tâches de pré-entraînement utilisées par BERT ?

Autres sujets d'entretien Data Science & ML

Les bases de Python

Programmation Orientée Objet Python

Structures de données Python

Fondamentaux Git

Les bases de SQL

Fondamentaux NumPy

Les bases de Pandas

Jupyter & Google Colab

SQL Joins & Requêtes avancées

Pandas avancé

Visualisation avec Matplotlib & Seaborn

Visualisations interactives avec Plotly

Statistiques descriptives

Statistiques inférentielles

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisé : Régression

ML Supervisé : Classification

Arbres de décision & Ensembles

ML Non supervisé

Pipelines ML & Validation

Séries temporelles & Prévisions

Fondamentaux Deep Learning

TensorFlow & Keras

CNN & Classification d'images

RNN & Séquences

Transformers & Attention

GenAI & LangChain

MLOps & Déploiement

Maîtrise Data Science & ML pour ton prochain entretien