
Transformers & Attention
Mécanisme d'attention, self-attention, multi-head attention, architecture Transformer, positional encoding
1Quel est le principal avantage du mécanisme d'attention par rapport aux RNN pour le traitement de séquences ?
Quel est le principal avantage du mécanisme d'attention par rapport aux RNN pour le traitement de séquences ?
Réponse
Le mécanisme d'attention permet un accès direct à n'importe quelle position de la séquence, éliminant le goulot d'étranglement séquentiel des RNN. Contrairement aux RNN qui doivent propager l'information pas à pas, l'attention calcule des connexions directes entre toutes les positions, permettant une parallélisation massive et capturant les dépendances longue distance sans dégradation du gradient.
2Dans le mécanisme d'attention, que représentent les vecteurs Query (Q), Key (K) et Value (V) ?
Dans le mécanisme d'attention, que représentent les vecteurs Query (Q), Key (K) et Value (V) ?
Réponse
Query représente ce que le token recherche, Key représente ce que chaque token peut offrir comme correspondance, et Value contient l'information à récupérer. Le score d'attention est calculé entre Q et K pour déterminer l'importance relative, puis utilisé pour pondérer les V. Cette analogie provient des systèmes de recherche d'information où une requête est comparée à des clés pour récupérer des valeurs.
3Quelle est la formule du scaled dot-product attention et pourquoi diviser par la racine de dk ?
Quelle est la formule du scaled dot-product attention et pourquoi diviser par la racine de dk ?
Réponse
La formule est Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. La division par sqrt(dk) est cruciale car les produits scalaires de vecteurs de grande dimension tendent à avoir des magnitudes élevées, poussant le softmax vers des régions à gradients très faibles. Cette normalisation maintient une variance stable des scores d'attention, assurant un apprentissage efficace.
Quelle est la différence fondamentale entre l'attention et la self-attention ?
Pourquoi utiliser le multi-head attention plutôt qu'une seule tête d'attention ?
+21 questions d'entretien
Autres sujets d'entretien Data Science & ML
Les bases de Python
Programmation Orientée Objet Python
Structures de données Python
Fondamentaux Git
Les bases de SQL
Fondamentaux NumPy
Les bases de Pandas
Jupyter & Google Colab
SQL Joins & Requêtes avancées
Pandas avancé
Visualisation avec Matplotlib & Seaborn
Visualisations interactives avec Plotly
Statistiques descriptives
Statistiques inférentielles
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisé : Régression
ML Supervisé : Classification
Arbres de décision & Ensembles
ML Non supervisé
Pipelines ML & Validation
Séries temporelles & Prévisions
Fondamentaux Deep Learning
TensorFlow & Keras
CNN & Classification d'images
RNN & Séquences
NLP & Hugging Face
GenAI & LangChain
MLOps & Déploiement
Maîtrise Data Science & ML pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement