Data Science & ML

Transformers ve Attention

Attention mekanizması, self-attention, multi-head attention, Transformer mimarisi, positional encoding

24 mülakat soruları·
Senior
1

Sequence işlemede attention mekanizmasının RNN'lere göre temel avantajı nedir?

Cevap

Attention mekanizması, sequence içindeki herhangi bir konuma doğrudan erişim sağlar ve RNN'lerin sıralı darboğazını ortadan kaldırır. Bilgiyi adım adım yayması gereken RNN'lerin aksine, attention tüm konumlar arasında doğrudan bağlantılar hesaplar, büyük ölçekli paralelleştirmeyi mümkün kılar ve gradyan bozulması olmadan uzun mesafeli bağımlılıkları yakalar.

2

Attention mekanizmasında Query (Q), Key (K) ve Value (V) vektörleri neyi temsil eder?

Cevap

Query token'ın aradığı şeyi temsil eder, Key her token'ın eşleşme olarak sunabileceği şeyi temsil eder ve Value alınacak bilgiyi içerir. Attention skoru, göreceli önemi belirlemek için Q ve K arasında hesaplanır, ardından V'leri ağırlıklandırmak için kullanılır. Bu analoji, bir query'nin değerleri almak için anahtarlarla karşılaştırıldığı bilgi alma sistemlerinden gelir.

3

Scaled dot-product attention'ın formülü nedir ve neden dk'nın kareköküne bölünür?

Cevap

Formül Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V'dir. sqrt(dk)'ya bölmek kritiktir çünkü yüksek boyutlu vektörlerin dot product'ları büyük büyüklüklere sahip olma eğilimindedir ve softmax'ı çok küçük gradyanlı bölgelere iter. Bu normalleştirme attention skorlarının kararlı varyansını korur ve verimli öğrenmeyi sağlar.

4

Attention ve self-attention arasındaki temel fark nedir?

5

Tek bir attention head yerine neden multi-head attention kullanılır?

+21 mülakat soruları

Bir sonraki mülakatın için Data Science & ML'de uzmanlaş

Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.

Ücretsiz başla