Data Science & ML

Transformers & Attention

Mekanisme attention, self-attention, multi-head attention, arsitektur Transformer, positional encoding

24 pertanyaan wawancaraยท
Senior
1

Apa keunggulan utama mekanisme attention dibandingkan RNN untuk pemrosesan sequence?

Jawaban

Mekanisme attention memungkinkan akses langsung ke posisi mana pun dalam sequence, menghilangkan bottleneck sequential dari RNN. Berbeda dengan RNN yang harus mempropagasi informasi langkah demi langkah, attention menghitung koneksi langsung antara semua posisi, memungkinkan paralelisasi masif dan menangkap dependensi jarak jauh tanpa degradasi gradien.

2

Dalam mekanisme attention, apa yang direpresentasikan oleh vektor Query (Q), Key (K), dan Value (V)?

Jawaban

Query merepresentasikan apa yang dicari token, Key merepresentasikan apa yang dapat ditawarkan setiap token sebagai kecocokan, dan Value berisi informasi yang akan diambil. Skor attention dihitung antara Q dan K untuk menentukan kepentingan relatif, lalu digunakan untuk membobot V. Analogi ini berasal dari sistem information retrieval di mana query dibandingkan dengan keys untuk mengambil values.

3

Apa formula scaled dot-product attention dan mengapa membaginya dengan akar kuadrat dk?

Jawaban

Formulanya adalah Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V. Pembagian dengan sqrt(dk) sangat penting karena dot product vektor berdimensi tinggi cenderung memiliki magnitudo besar, mendorong softmax ke wilayah dengan gradien sangat kecil. Normalisasi ini menjaga varians stabil dari skor attention, memastikan pembelajaran yang efisien.

4

Apa perbedaan fundamental antara attention dan self-attention?

5

Mengapa menggunakan multi-head attention daripada satu attention head?

+21 pertanyaan wawancara

Kuasai Data Science & ML untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis