
Transformers y Attention
Mecanismo de attention, self-attention, multi-head attention, arquitectura Transformer, positional encoding
1¿Cuál es la principal ventaja del mecanismo de attention sobre las RNN para el procesamiento de secuencias?
¿Cuál es la principal ventaja del mecanismo de attention sobre las RNN para el procesamiento de secuencias?
Respuesta
El mecanismo de attention permite acceso directo a cualquier posición en la secuencia, eliminando el cuello de botella secuencial de las RNN. A diferencia de las RNN que deben propagar información paso a paso, attention calcula conexiones directas entre todas las posiciones, permitiendo paralelización masiva y capturando dependencias de largo alcance sin degradación del gradiente.
2En el mecanismo de attention, ¿qué representan los vectores Query (Q), Key (K) y Value (V)?
En el mecanismo de attention, ¿qué representan los vectores Query (Q), Key (K) y Value (V)?
Respuesta
Query representa lo que el token está buscando, Key representa lo que cada token puede ofrecer como coincidencia, y Value contiene la información a recuperar. El score de attention se calcula entre Q y K para determinar la importancia relativa, luego se usa para ponderar los V. Esta analogía proviene de los sistemas de recuperación de información donde una query se compara con keys para recuperar values.
3¿Cuál es la fórmula del scaled dot-product attention y por qué dividir por la raíz de dk?
¿Cuál es la fórmula del scaled dot-product attention y por qué dividir por la raíz de dk?
Respuesta
La fórmula es Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Dividir por sqrt(dk) es crucial porque los productos escalares de vectores de alta dimensión tienden a tener magnitudes grandes, empujando el softmax hacia regiones con gradientes muy pequeños. Esta normalización mantiene una varianza estable de los scores de attention, asegurando un aprendizaje eficiente.
¿Cuál es la diferencia fundamental entre attention y self-attention?
¿Por qué usar multi-head attention en lugar de una sola cabeza de attention?
+21 preguntas de entrevista
Otros temas de entrevista Data Science & ML
Fundamentos de Python
Programación Orientada a Objetos en Python
Estructuras de datos en Python
Fundamentos de Git
Fundamentos de SQL
Fundamentos de NumPy
Fundamentos de Pandas
Jupyter & Google Colab
SQL Joins y consultas avanzadas
Pandas avanzado
Visualización con Matplotlib & Seaborn
Visualizaciones interactivas con Plotly
Estadística descriptiva
Estadística inferencial
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisado: Regresión
ML Supervisado: Clasificación
Árboles de Decisión y Ensembles
ML No Supervisado
Pipelines ML y Validación
Series Temporales y Pronóstico
Fundamentos de Deep Learning
TensorFlow & Keras
CNN y clasificación de imágenes
RNN y Secuencias
NLP y Hugging Face
GenAI y LangChain
MLOps y Despliegue
Domina Data Science & ML para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis