Question 1

Яка основна перевага механізму attention перед RNN для обробки послідовностей?

Accepted Answer

Механізм attention забезпечує прямий доступ до будь-якої позиції в послідовності, усуваючи послідовне вузьке місце RNN. На відміну від RNN, які повинні поширювати інформацію крок за кроком, attention обчислює прямі зв'язки між усіма позиціями, забезпечуючи масштабне розпаралелювання та фіксуючи довготривалі залежності без деградації градієнта.

Question 2

Що представляють вектори Query (Q), Key (K) та Value (V) у механізмі attention?

Accepted Answer

Query представляє те, що шукає токен, Key представляє те, що кожен токен може запропонувати як відповідність, а Value містить інформацію для отримання. Оцінка attention обчислюється між Q та K для визначення відносної важливості, а потім використовується для зважування V. Ця аналогія походить із систем інформаційного пошуку, де query порівнюється з ключами для отримання значень.

Question 3

Яка формула scaled dot-product attention і чому ділити на квадратний корінь з dk?

Accepted Answer

Формула: Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Ділення на sqrt(dk) є критично важливим, оскільки скалярні добутки високовимірних векторів мають тенденцію до великих величин, штовхаючи softmax у регіони з дуже малими градієнтами. Ця нормалізація підтримує стабільну дисперсію оцінок attention, забезпечуючи ефективне навчання.

Transformers та Attention

Яка основна перевага механізму attention перед RNN для обробки послідовностей?

Відповідь

Що представляють вектори Query (Q), Key (K) та Value (V) у механізмі attention?

Відповідь

Яка формула scaled dot-product attention і чому ділити на квадратний корінь з dk?

Відповідь

Яка фундаментальна різниця між attention та self-attention?

Чому використовувати multi-head attention замість однієї attention head?

Інші теми співбесід Data Science & ML

Основи Python

Об'єктно-орієнтоване програмування Python

Структури даних Python

Основи Git

Основи SQL

Основи NumPy

Основи Pandas

Jupyter & Google Colab

SQL Joins та розширені запити

Просунутий Pandas

Візуалізація з Matplotlib & Seaborn

Інтерактивні візуалізації з Plotly

Описова статистика

Інференційна статистика

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Кероване ML: Регресія

Кероване ML: Класифікація

Дерева рішень та ансамблі

Некероване ML

ML Pipelines та валідація

Часові ряди та прогнозування

Основи Deep Learning

TensorFlow & Keras

CNN та класифікація зображень

RNN та послідовності

NLP та Hugging Face

GenAI та LangChain

MLOps та розгортання

Опануй Data Science & ML для наступної співбесіди