Question 1

หน้าที่หลักของ tokenization ในการประมวลผลภาษาธรรมชาติคืออะไร?

Accepted Answer

Tokenization คือการแบ่งข้อความดิบเป็นหน่วยเล็กๆ ที่เรียกว่า token ซึ่งอาจเป็นคำ, sub-word หรือตัวอักษร ขั้นตอนนี้สำคัญเพราะโมเดลภาษาไม่สามารถประมวลผลข้อความดิบโดยตรงได้ จากนั้น token แต่ละตัวจะถูกแปลงเป็นตัวระบุตัวเลขที่โมเดลสามารถประมวลผลได้

Question 2

ข้อได้เปรียบหลักของอัลกอริทึม BPE (Byte Pair Encoding) เมื่อเทียบกับ tokenization ระดับคำคืออะไร?

Accepted Answer

BPE จัดการกับคำที่ไม่รู้จัก (out-of-vocabulary) โดยการแยกย่อยเป็นหน่วยย่อยที่รู้จัก ต่างจาก tokenization ระดับคำที่แทนที่คำที่ไม่รู้จักด้วย token พิเศษ [UNK] BPE สามารถแสดงคำใดๆ ก็ตามเป็นการรวมกันของ sub-word ที่อยู่ในคำศัพท์ ทำให้สามารถสรุปผลกับคำที่ไม่เคยเห็นในระหว่างการฝึก

Question 3

ความแตกต่างพื้นฐานระหว่าง WordPiece และ BPE สำหรับการสร้างคำศัพท์คืออะไร?

Accepted Answer

BPE รวมคู่ token ที่พบบ่อยที่สุด ในขณะที่ WordPiece เลือกการรวมที่เพิ่ม likelihood ของ corpus การฝึกให้สูงสุด ดังนั้น WordPiece จึงใช้เกณฑ์เชิงความน่าจะเป็นแทนความถี่บริสุทธิ์ ซึ่งสามารถสร้างการแบ่งที่แตกต่างกันเล็กน้อยและอาจเหมาะสมกับโมเดลภาษาสุดท้ายมากกว่า

NLP และ Hugging Face

หน้าที่หลักของ tokenization ในการประมวลผลภาษาธรรมชาติคืออะไร?

คำตอบ

ข้อได้เปรียบหลักของอัลกอริทึม BPE (Byte Pair Encoding) เมื่อเทียบกับ tokenization ระดับคำคืออะไร?

คำตอบ

ความแตกต่างพื้นฐานระหว่าง WordPiece และ BPE สำหรับการสร้างคำศัพท์คืออะไร?

คำตอบ

ความแตกต่างหลักระหว่าง word embeddings แบบสแตติก (Word2Vec) และ embeddings เชิงบริบท (BERT) คืออะไร?

งาน pre-training สองอย่างที่ BERT ใช้คืออะไร?

หัวข้อสัมภาษณ์ Data Science & ML อื่นๆ

พื้นฐาน Python

การเขียนโปรแกรมเชิงวัตถุด้วย Python

โครงสร้างข้อมูล Python

พื้นฐาน Git

พื้นฐาน SQL

พื้นฐาน NumPy

พื้นฐาน Pandas

Jupyter & Google Colab

SQL Joins และคิวรีขั้นสูง

Pandas ขั้นสูง

การแสดงผลข้อมูลด้วย Matplotlib & Seaborn

การแสดงผลแบบโต้ตอบด้วย Plotly

สถิติเชิงพรรณนา

สถิติเชิงอนุมาน

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML แบบมีผู้สอน: การถดถอย

ML แบบมีผู้สอน: การจำแนกประเภท

Decision Trees และ Ensembles

Unsupervised ML

ML Pipelines และการตรวจสอบ

Time Series และการพยากรณ์

พื้นฐาน Deep Learning

TensorFlow & Keras

CNN และการจำแนกภาพ

RNN และซีเควนซ์

Transformers และ Attention

GenAI และ LangChain

MLOps และการ Deploy

เชี่ยวชาญ Data Science & ML สำหรับการสัมภาษณ์ครั้งถัดไป