Question 1

¿Cuál es la principal ventaja del mecanismo de attention sobre las RNN para el procesamiento de secuencias?

Accepted Answer

El mecanismo de attention permite acceso directo a cualquier posición en la secuencia, eliminando el cuello de botella secuencial de las RNN. A diferencia de las RNN que deben propagar información paso a paso, attention calcula conexiones directas entre todas las posiciones, permitiendo paralelización masiva y capturando dependencias de largo alcance sin degradación del gradiente.

Question 2

En el mecanismo de attention, ¿qué representan los vectores Query (Q), Key (K) y Value (V)?

Accepted Answer

Query representa lo que el token está buscando, Key representa lo que cada token puede ofrecer como coincidencia, y Value contiene la información a recuperar. El score de attention se calcula entre Q y K para determinar la importancia relativa, luego se usa para ponderar los V. Esta analogía proviene de los sistemas de recuperación de información donde una query se compara con keys para recuperar values.

Question 3

¿Cuál es la fórmula del scaled dot-product attention y por qué dividir por la raíz de dk?

Accepted Answer

La fórmula es Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Dividir por sqrt(dk) es crucial porque los productos escalares de vectores de alta dimensión tienden a tener magnitudes grandes, empujando el softmax hacia regiones con gradientes muy pequeños. Esta normalización mantiene una varianza estable de los scores de attention, asegurando un aprendizaje eficiente.

Transformers y Attention

¿Cuál es la principal ventaja del mecanismo de attention sobre las RNN para el procesamiento de secuencias?

Respuesta

En el mecanismo de attention, ¿qué representan los vectores Query (Q), Key (K) y Value (V)?

Respuesta

¿Cuál es la fórmula del scaled dot-product attention y por qué dividir por la raíz de dk?

Respuesta

¿Cuál es la diferencia fundamental entre attention y self-attention?

¿Por qué usar multi-head attention en lugar de una sola cabeza de attention?

Otros temas de entrevista Data Science & ML

Fundamentos de Python

Programación Orientada a Objetos en Python

Estructuras de datos en Python

Fundamentos de Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins y consultas avanzadas

Pandas avanzado

Visualización con Matplotlib & Seaborn

Visualizaciones interactivas con Plotly

Estadística descriptiva

Estadística inferencial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisado: Regresión

ML Supervisado: Clasificación

Árboles de Decisión y Ensembles

ML No Supervisado

Pipelines ML y Validación

Series Temporales y Pronóstico

Fundamentos de Deep Learning

TensorFlow & Keras

CNN y clasificación de imágenes

RNN y Secuencias

NLP y Hugging Face

GenAI y LangChain

MLOps y Despliegue

Domina Data Science & ML para tu próxima entrevista