Question 1

Quel est le principal avantage du mécanisme d'attention par rapport aux RNN pour le traitement de séquences ?

Accepted Answer

Le mécanisme d'attention permet un accès direct à n'importe quelle position de la séquence, éliminant le goulot d'étranglement séquentiel des RNN. Contrairement aux RNN qui doivent propager l'information pas à pas, l'attention calcule des connexions directes entre toutes les positions, permettant une parallélisation massive et capturant les dépendances longue distance sans dégradation du gradient.

Question 2

Dans le mécanisme d'attention, que représentent les vecteurs Query (Q), Key (K) et Value (V) ?

Accepted Answer

Query représente ce que le token recherche, Key représente ce que chaque token peut offrir comme correspondance, et Value contient l'information à récupérer. Le score d'attention est calculé entre Q et K pour déterminer l'importance relative, puis utilisé pour pondérer les V. Cette analogie provient des systèmes de recherche d'information où une requête est comparée à des clés pour récupérer des valeurs.

Question 3

Quelle est la formule du scaled dot-product attention et pourquoi diviser par la racine de dk ?

Accepted Answer

La formule est Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. La division par sqrt(dk) est cruciale car les produits scalaires de vecteurs de grande dimension tendent à avoir des magnitudes élevées, poussant le softmax vers des régions à gradients très faibles. Cette normalisation maintient une variance stable des scores d'attention, assurant un apprentissage efficace.

Transformers & Attention

Quel est le principal avantage du mécanisme d'attention par rapport aux RNN pour le traitement de séquences ?

Réponse

Dans le mécanisme d'attention, que représentent les vecteurs Query (Q), Key (K) et Value (V) ?

Réponse

Quelle est la formule du scaled dot-product attention et pourquoi diviser par la racine de dk ?

Réponse

Quelle est la différence fondamentale entre l'attention et la self-attention ?

Pourquoi utiliser le multi-head attention plutôt qu'une seule tête d'attention ?

Autres sujets d'entretien Data Science & ML

Les bases de Python

Programmation Orientée Objet Python

Structures de données Python

Fondamentaux Git

Les bases de SQL

Fondamentaux NumPy

Les bases de Pandas

Jupyter & Google Colab

SQL Joins & Requêtes avancées

Pandas avancé

Visualisation avec Matplotlib & Seaborn

Visualisations interactives avec Plotly

Statistiques descriptives

Statistiques inférentielles

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisé : Régression

ML Supervisé : Classification

Arbres de décision & Ensembles

ML Non supervisé

Pipelines ML & Validation

Séries temporelles & Prévisions

Fondamentaux Deep Learning

TensorFlow & Keras

CNN & Classification d'images

RNN & Séquences

NLP & Hugging Face

GenAI & LangChain

MLOps & Déploiement

Maîtrise Data Science & ML pour ton prochain entretien