
Transformers และ Attention
กลไก attention, self-attention, multi-head attention, สถาปัตยกรรม Transformer, positional encoding
1ข้อได้เปรียบหลักของกลไก attention เหนือ RNN ในการประมวลผลซีเควนซ์คืออะไร?
ข้อได้เปรียบหลักของกลไก attention เหนือ RNN ในการประมวลผลซีเควนซ์คืออะไร?
คำตอบ
กลไก attention อนุญาตให้เข้าถึงตำแหน่งใดๆ ในซีเควนซ์ได้โดยตรง โดยกำจัดคอขวดแบบลำดับของ RNN ต่างจาก RNN ที่ต้องเผยแพร่ข้อมูลทีละขั้น attention คำนวณการเชื่อมต่อโดยตรงระหว่างทุกตำแหน่ง ทำให้สามารถประมวลผลแบบขนานขนาดใหญ่และจับความสัมพันธ์ระยะไกลได้โดยไม่มีการเสื่อมของ gradient
2ในกลไก attention เวกเตอร์ Query (Q), Key (K) และ Value (V) แทนสิ่งใด?
ในกลไก attention เวกเตอร์ Query (Q), Key (K) และ Value (V) แทนสิ่งใด?
คำตอบ
Query แทนสิ่งที่ token กำลังมองหา Key แทนสิ่งที่แต่ละ token สามารถนำเสนอเป็นการจับคู่ และ Value มีข้อมูลที่จะดึงออกมา คะแนน attention คำนวณระหว่าง Q และ K เพื่อกำหนดความสำคัญสัมพัทธ์ จากนั้นใช้เพื่อถ่วงน้ำหนัก V ความคล้ายคลึงนี้มาจากระบบ information retrieval ที่ query ถูกเปรียบเทียบกับ keys เพื่อดึง values
3สูตรของ scaled dot-product attention คืออะไร และทำไมต้องหารด้วยรากที่สองของ dk?
สูตรของ scaled dot-product attention คืออะไร และทำไมต้องหารด้วยรากที่สองของ dk?
คำตอบ
สูตรคือ Attention(Q,K,V) = softmax(QK^T / sqrt(dk)) * V การหารด้วย sqrt(dk) มีความสำคัญเพราะ dot product ของเวกเตอร์มิติสูงมักมีขนาดใหญ่ ทำให้ softmax อยู่ในบริเวณที่มี gradient เล็กมาก การ normalize นี้รักษาความแปรปรวนคงที่ของคะแนน attention เพื่อให้การเรียนรู้มีประสิทธิภาพ
ความแตกต่างพื้นฐานระหว่าง attention และ self-attention คืออะไร?
ทำไมต้องใช้ multi-head attention แทน attention head เดียว?
+21 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Science & ML อื่นๆ
พื้นฐาน Python
การเขียนโปรแกรมเชิงวัตถุด้วย Python
โครงสร้างข้อมูล Python
พื้นฐาน Git
พื้นฐาน SQL
พื้นฐาน NumPy
พื้นฐาน Pandas
Jupyter & Google Colab
SQL Joins และคิวรีขั้นสูง
Pandas ขั้นสูง
การแสดงผลข้อมูลด้วย Matplotlib & Seaborn
การแสดงผลแบบโต้ตอบด้วย Plotly
สถิติเชิงพรรณนา
สถิติเชิงอนุมาน
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML แบบมีผู้สอน: การถดถอย
ML แบบมีผู้สอน: การจำแนกประเภท
Decision Trees และ Ensembles
Unsupervised ML
ML Pipelines และการตรวจสอบ
Time Series และการพยากรณ์
พื้นฐาน Deep Learning
TensorFlow & Keras
CNN และการจำแนกภาพ
RNN และซีเควนซ์
NLP และ Hugging Face
GenAI และ LangChain
MLOps และการ Deploy
เชี่ยวชาญ Data Science & ML สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี