
NLP & Hugging Face
Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference
1Quelle est la fonction principale de la tokenization dans le traitement du langage naturel ?
Quelle est la fonction principale de la tokenization dans le traitement du langage naturel ?
Réponse
La tokenization consiste à découper le texte brut en unités plus petites appelées tokens, qui peuvent être des mots, des sous-mots ou des caractères. Cette étape est essentielle car les modèles de langage ne peuvent pas traiter directement du texte brut. Chaque token est ensuite converti en un identifiant numérique que le modèle peut traiter.
2Quel est l'avantage principal de l'algorithme BPE (Byte Pair Encoding) par rapport à la tokenization par mots ?
Quel est l'avantage principal de l'algorithme BPE (Byte Pair Encoding) par rapport à la tokenization par mots ?
Réponse
BPE permet de gérer les mots inconnus (out-of-vocabulary) en les décomposant en sous-unités connues. Contrairement à la tokenization par mots qui remplace les mots inconnus par un token spécial [UNK], BPE peut représenter n'importe quel mot comme une combinaison de sous-mots présents dans le vocabulaire, permettant ainsi de généraliser à des mots jamais vus pendant l'entraînement.
3Quelle est la différence fondamentale entre WordPiece et BPE pour la construction du vocabulaire ?
Quelle est la différence fondamentale entre WordPiece et BPE pour la construction du vocabulaire ?
Réponse
BPE fusionne les paires de tokens les plus fréquentes, tandis que WordPiece choisit les fusions qui maximisent la vraisemblance du corpus d'entraînement. WordPiece utilise donc un critère probabiliste plutôt que purement fréquentiel, ce qui peut produire des découpages légèrement différents et potentiellement plus adaptés au modèle de langage final.
Quelle est la différence principale entre les word embeddings statiques (Word2Vec) et les embeddings contextuels (BERT) ?
Quelles sont les deux tâches de pré-entraînement utilisées par BERT ?
+21 questions d'entretien
Autres sujets d'entretien Data Science & ML
Les bases de Python
Programmation Orientée Objet Python
Structures de données Python
Fondamentaux Git
Les bases de SQL
Fondamentaux NumPy
Les bases de Pandas
Jupyter & Google Colab
SQL Joins & Requêtes avancées
Pandas avancé
Visualisation avec Matplotlib & Seaborn
Visualisations interactives avec Plotly
Statistiques descriptives
Statistiques inférentielles
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisé : Régression
ML Supervisé : Classification
Arbres de décision & Ensembles
ML Non supervisé
Pipelines ML & Validation
Séries temporelles & Prévisions
Fondamentaux Deep Learning
TensorFlow & Keras
CNN & Classification d'images
RNN & Séquences
Transformers & Attention
GenAI & LangChain
MLOps & Déploiement
Maîtrise Data Science & ML pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement