Question 1

Chức năng chính của tokenization trong xử lý ngôn ngữ tự nhiên là gì?

Accepted Answer

Tokenization chia văn bản thô thành các đơn vị nhỏ hơn được gọi là token, có thể là từ, sub-word hoặc ký tự. Bước này rất cần thiết vì các mô hình ngôn ngữ không thể xử lý trực tiếp văn bản thô. Mỗi token sau đó được chuyển đổi thành một định danh số mà mô hình có thể xử lý.

Question 2

Ưu điểm chính của thuật toán BPE (Byte Pair Encoding) so với tokenization cấp từ là gì?

Accepted Answer

BPE xử lý các từ không xác định (out-of-vocabulary) bằng cách phân tách chúng thành các sub-unit đã biết. Khác với tokenization cấp từ thay thế các từ không xác định bằng token đặc biệt [UNK], BPE có thể biểu diễn bất kỳ từ nào dưới dạng tổ hợp các sub-word có trong từ vựng, cho phép khái quát hóa cho các từ chưa bao giờ thấy trong quá trình huấn luyện.

Question 3

Sự khác biệt cơ bản giữa WordPiece và BPE để xây dựng từ vựng là gì?

Accepted Answer

BPE hợp nhất các cặp token thường xuyên nhất, trong khi WordPiece chọn các hợp nhất tối đa hóa khả năng của corpus huấn luyện. Do đó, WordPiece sử dụng tiêu chí xác suất thay vì thuần túy theo tần suất, có thể tạo ra các phân chia hơi khác và có khả năng phù hợp hơn với mô hình ngôn ngữ cuối cùng.

NLP & Hugging Face

Chức năng chính của tokenization trong xử lý ngôn ngữ tự nhiên là gì?

Câu trả lời

Ưu điểm chính của thuật toán BPE (Byte Pair Encoding) so với tokenization cấp từ là gì?

Câu trả lời

Sự khác biệt cơ bản giữa WordPiece và BPE để xây dựng từ vựng là gì?

Câu trả lời

Sự khác biệt chính giữa word embeddings tĩnh (Word2Vec) và embeddings ngữ cảnh (BERT) là gì?

Hai nhiệm vụ pre-training mà BERT sử dụng là gì?

Các chủ đề phỏng vấn Data Science & ML khác

Cơ bản về Python

Lập trình Hướng đối tượng Python

Cấu trúc dữ liệu Python

Kiến Thức Cơ Bản về Git

Cơ bản về SQL

Kiến thức cơ bản về NumPy

Cơ bản về Pandas

Jupyter & Google Colab

SQL Joins & Truy vấn nâng cao

Pandas nâng cao

Trực quan hóa với Matplotlib & Seaborn

Trực quan hóa tương tác với Plotly

Thống kê mô tả

Thống kê suy luận

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Có Giám Sát: Hồi Quy

ML Có Giám Sát: Phân Loại

Cây Quyết định & Ensemble

ML Không Giám Sát

Pipeline ML & Xác thực

Chuỗi thời gian & Dự báo

Cơ Bản Về Deep Learning

TensorFlow & Keras

CNN và phân loại hình ảnh

RNN & Chuỗi

Transformers & Attention

GenAI & LangChain

MLOps và Triển khai

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo