
NLP และ Hugging Face
Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference
1หน้าที่หลักของ tokenization ในการประมวลผลภาษาธรรมชาติคืออะไร?
หน้าที่หลักของ tokenization ในการประมวลผลภาษาธรรมชาติคืออะไร?
คำตอบ
Tokenization คือการแบ่งข้อความดิบเป็นหน่วยเล็กๆ ที่เรียกว่า token ซึ่งอาจเป็นคำ, sub-word หรือตัวอักษร ขั้นตอนนี้สำคัญเพราะโมเดลภาษาไม่สามารถประมวลผลข้อความดิบโดยตรงได้ จากนั้น token แต่ละตัวจะถูกแปลงเป็นตัวระบุตัวเลขที่โมเดลสามารถประมวลผลได้
2ข้อได้เปรียบหลักของอัลกอริทึม BPE (Byte Pair Encoding) เมื่อเทียบกับ tokenization ระดับคำคืออะไร?
ข้อได้เปรียบหลักของอัลกอริทึม BPE (Byte Pair Encoding) เมื่อเทียบกับ tokenization ระดับคำคืออะไร?
คำตอบ
BPE จัดการกับคำที่ไม่รู้จัก (out-of-vocabulary) โดยการแยกย่อยเป็นหน่วยย่อยที่รู้จัก ต่างจาก tokenization ระดับคำที่แทนที่คำที่ไม่รู้จักด้วย token พิเศษ [UNK] BPE สามารถแสดงคำใดๆ ก็ตามเป็นการรวมกันของ sub-word ที่อยู่ในคำศัพท์ ทำให้สามารถสรุปผลกับคำที่ไม่เคยเห็นในระหว่างการฝึก
3ความแตกต่างพื้นฐานระหว่าง WordPiece และ BPE สำหรับการสร้างคำศัพท์คืออะไร?
ความแตกต่างพื้นฐานระหว่าง WordPiece และ BPE สำหรับการสร้างคำศัพท์คืออะไร?
คำตอบ
BPE รวมคู่ token ที่พบบ่อยที่สุด ในขณะที่ WordPiece เลือกการรวมที่เพิ่ม likelihood ของ corpus การฝึกให้สูงสุด ดังนั้น WordPiece จึงใช้เกณฑ์เชิงความน่าจะเป็นแทนความถี่บริสุทธิ์ ซึ่งสามารถสร้างการแบ่งที่แตกต่างกันเล็กน้อยและอาจเหมาะสมกับโมเดลภาษาสุดท้ายมากกว่า
ความแตกต่างหลักระหว่าง word embeddings แบบสแตติก (Word2Vec) และ embeddings เชิงบริบท (BERT) คืออะไร?
งาน pre-training สองอย่างที่ BERT ใช้คืออะไร?
+21 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Science & ML อื่นๆ
พื้นฐาน Python
การเขียนโปรแกรมเชิงวัตถุด้วย Python
โครงสร้างข้อมูล Python
พื้นฐาน Git
พื้นฐาน SQL
พื้นฐาน NumPy
พื้นฐาน Pandas
Jupyter & Google Colab
SQL Joins และคิวรีขั้นสูง
Pandas ขั้นสูง
การแสดงผลข้อมูลด้วย Matplotlib & Seaborn
การแสดงผลแบบโต้ตอบด้วย Plotly
สถิติเชิงพรรณนา
สถิติเชิงอนุมาน
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML แบบมีผู้สอน: การถดถอย
ML แบบมีผู้สอน: การจำแนกประเภท
Decision Trees และ Ensembles
Unsupervised ML
ML Pipelines และการตรวจสอบ
Time Series และการพยากรณ์
พื้นฐาน Deep Learning
TensorFlow & Keras
CNN และการจำแนกภาพ
RNN และซีเควนซ์
Transformers และ Attention
GenAI และ LangChain
MLOps และการ Deploy
เชี่ยวชาญ Data Science & ML สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี