
Transformers та Attention
Механізм attention, self-attention, multi-head attention, архітектура Transformer, positional encoding
1Яка основна перевага механізму attention перед RNN для обробки послідовностей?
Яка основна перевага механізму attention перед RNN для обробки послідовностей?
Відповідь
Механізм attention забезпечує прямий доступ до будь-якої позиції в послідовності, усуваючи послідовне вузьке місце RNN. На відміну від RNN, які повинні поширювати інформацію крок за кроком, attention обчислює прямі зв'язки між усіма позиціями, забезпечуючи масштабне розпаралелювання та фіксуючи довготривалі залежності без деградації градієнта.
2Що представляють вектори Query (Q), Key (K) та Value (V) у механізмі attention?
Що представляють вектори Query (Q), Key (K) та Value (V) у механізмі attention?
Відповідь
Query представляє те, що шукає токен, Key представляє те, що кожен токен може запропонувати як відповідність, а Value містить інформацію для отримання. Оцінка attention обчислюється між Q та K для визначення відносної важливості, а потім використовується для зважування V. Ця аналогія походить із систем інформаційного пошуку, де query порівнюється з ключами для отримання значень.
3Яка формула scaled dot-product attention і чому ділити на квадратний корінь з dk?
Яка формула scaled dot-product attention і чому ділити на квадратний корінь з dk?
Відповідь
Формула: Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Ділення на sqrt(dk) є критично важливим, оскільки скалярні добутки високовимірних векторів мають тенденцію до великих величин, штовхаючи softmax у регіони з дуже малими градієнтами. Ця нормалізація підтримує стабільну дисперсію оцінок attention, забезпечуючи ефективне навчання.
Яка фундаментальна різниця між attention та self-attention?
Чому використовувати multi-head attention замість однієї attention head?
+21 питань зі співбесід
Інші теми співбесід Data Science & ML
Основи Python
Об'єктно-орієнтоване програмування Python
Структури даних Python
Основи Git
Основи SQL
Основи NumPy
Основи Pandas
Jupyter & Google Colab
SQL Joins та розширені запити
Просунутий Pandas
Візуалізація з Matplotlib & Seaborn
Інтерактивні візуалізації з Plotly
Описова статистика
Інференційна статистика
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Кероване ML: Регресія
Кероване ML: Класифікація
Дерева рішень та ансамблі
Некероване ML
ML Pipelines та валідація
Часові ряди та прогнозування
Основи Deep Learning
TensorFlow & Keras
CNN та класифікація зображень
RNN та послідовності
NLP та Hugging Face
GenAI та LangChain
MLOps та розгортання
Опануй Data Science & ML для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно