Question 1

시퀀스 처리에서 attention 메커니즘이 RNN에 비해 갖는 주요 장점은 무엇입니까?

Accepted Answer

attention 메커니즘은 시퀀스의 모든 위치에 직접 접근할 수 있게 하여 RNN의 순차적 병목 현상을 제거합니다. 정보를 단계별로 전파해야 하는 RNN과 달리, attention은 모든 위치 간의 직접적인 연결을 계산하여 대규모 병렬화를 가능하게 하고 그래디언트 저하 없이 장거리 의존성을 포착합니다.

Question 2

attention 메커니즘에서 Query (Q), Key (K), Value (V) 벡터는 무엇을 나타냅니까?

Accepted Answer

Query는 토큰이 찾고 있는 것을 나타내고, Key는 각 토큰이 일치 항목으로 제공할 수 있는 것을 나타내며, Value는 검색할 정보를 포함합니다. attention 점수는 Q와 K 사이에서 계산되어 상대적 중요도를 결정한 다음 V에 가중치를 부여하는 데 사용됩니다. 이 비유는 쿼리가 키와 비교되어 값을 검색하는 정보 검색 시스템에서 유래합니다.

Question 3

scaled dot-product attention의 공식은 무엇이며 왜 dk의 제곱근으로 나누는 것입니까?

Accepted Answer

공식은 Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V입니다. sqrt(dk)로 나누는 것은 매우 중요합니다. 왜냐하면 고차원 벡터의 내적은 큰 크기를 가지는 경향이 있어 softmax를 매우 작은 그래디언트 영역으로 밀어내기 때문입니다. 이 정규화는 attention 점수의 안정적인 분산을 유지하여 효율적인 학습을 보장합니다.

Transformers 및 Attention

시퀀스 처리에서 attention 메커니즘이 RNN에 비해 갖는 주요 장점은 무엇입니까?

답변

attention 메커니즘에서 Query (Q), Key (K), Value (V) 벡터는 무엇을 나타냅니까?

답변

scaled dot-product attention의 공식은 무엇이며 왜 dk의 제곱근으로 나누는 것입니까?

답변

attention과 self-attention의 근본적인 차이점은 무엇입니까?

단일 attention head 대신 multi-head attention을 사용하는 이유는 무엇입니까?

기타 Data Science & ML 면접 주제

Python 기초

Python 객체 지향 프로그래밍

Python 데이터 구조

Git 기초

SQL 기초

NumPy 기초

Pandas 기초

Jupyter & Google Colab

SQL Joins 및 고급 쿼리

Pandas 고급

Matplotlib & Seaborn을 활용한 시각화

Plotly로 만드는 인터랙티브 시각화

기술 통계

추론 통계학

Web Scraping

BigQuery & Cloud Data

Feature Engineering

지도 머신러닝: 회귀

지도 머신러닝: 분류

결정 트리 및 앙상블

비지도 ML

ML 파이프라인 및 검증

시계열 및 예측

Deep Learning 기초

TensorFlow & Keras

CNN 및 이미지 분류

RNN 및 시퀀스

NLP 및 Hugging Face

GenAI 및 LangChain

MLOps 및 배포

다음 면접을 위해 Data Science & ML을 마스터하세요