Data Science & ML

Transformers 및 Attention

attention 메커니즘, self-attention, multi-head attention, Transformer 아키텍처, positional encoding

24 면접 질문·
Senior
1

시퀀스 처리에서 attention 메커니즘이 RNN에 비해 갖는 주요 장점은 무엇입니까?

답변

attention 메커니즘은 시퀀스의 모든 위치에 직접 접근할 수 있게 하여 RNN의 순차적 병목 현상을 제거합니다. 정보를 단계별로 전파해야 하는 RNN과 달리, attention은 모든 위치 간의 직접적인 연결을 계산하여 대규모 병렬화를 가능하게 하고 그래디언트 저하 없이 장거리 의존성을 포착합니다.

2

attention 메커니즘에서 Query (Q), Key (K), Value (V) 벡터는 무엇을 나타냅니까?

답변

Query는 토큰이 찾고 있는 것을 나타내고, Key는 각 토큰이 일치 항목으로 제공할 수 있는 것을 나타내며, Value는 검색할 정보를 포함합니다. attention 점수는 Q와 K 사이에서 계산되어 상대적 중요도를 결정한 다음 V에 가중치를 부여하는 데 사용됩니다. 이 비유는 쿼리가 키와 비교되어 값을 검색하는 정보 검색 시스템에서 유래합니다.

3

scaled dot-product attention의 공식은 무엇이며 왜 dk의 제곱근으로 나누는 것입니까?

답변

공식은 Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V입니다. sqrt(dk)로 나누는 것은 매우 중요합니다. 왜냐하면 고차원 벡터의 내적은 큰 크기를 가지는 경향이 있어 softmax를 매우 작은 그래디언트 영역으로 밀어내기 때문입니다. 이 정규화는 attention 점수의 안정적인 분산을 유지하여 효율적인 학습을 보장합니다.

4

attention과 self-attention의 근본적인 차이점은 무엇입니까?

5

단일 attention head 대신 multi-head attention을 사용하는 이유는 무엇입니까?

+21 면접 질문

다음 면접을 위해 Data Science & ML을 마스터하세요

모든 질문, flashcards, 기술 테스트, 코드 리뷰 연습, 면접 시뮬레이터에 접근하세요.

무료로 시작하기