Data Science & ML

NLP & Hugging Face

Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference

24 câu hỏi phỏng vấn·
Senior
1

Chức năng chính của tokenization trong xử lý ngôn ngữ tự nhiên là gì?

Câu trả lời

Tokenization chia văn bản thô thành các đơn vị nhỏ hơn được gọi là token, có thể là từ, sub-word hoặc ký tự. Bước này rất cần thiết vì các mô hình ngôn ngữ không thể xử lý trực tiếp văn bản thô. Mỗi token sau đó được chuyển đổi thành một định danh số mà mô hình có thể xử lý.

2

Ưu điểm chính của thuật toán BPE (Byte Pair Encoding) so với tokenization cấp từ là gì?

Câu trả lời

BPE xử lý các từ không xác định (out-of-vocabulary) bằng cách phân tách chúng thành các sub-unit đã biết. Khác với tokenization cấp từ thay thế các từ không xác định bằng token đặc biệt [UNK], BPE có thể biểu diễn bất kỳ từ nào dưới dạng tổ hợp các sub-word có trong từ vựng, cho phép khái quát hóa cho các từ chưa bao giờ thấy trong quá trình huấn luyện.

3

Sự khác biệt cơ bản giữa WordPiece và BPE để xây dựng từ vựng là gì?

Câu trả lời

BPE hợp nhất các cặp token thường xuyên nhất, trong khi WordPiece chọn các hợp nhất tối đa hóa khả năng của corpus huấn luyện. Do đó, WordPiece sử dụng tiêu chí xác suất thay vì thuần túy theo tần suất, có thể tạo ra các phân chia hơi khác và có khả năng phù hợp hơn với mô hình ngôn ngữ cuối cùng.

4

Sự khác biệt chính giữa word embeddings tĩnh (Word2Vec) và embeddings ngữ cảnh (BERT) là gì?

5

Hai nhiệm vụ pre-training mà BERT sử dụng là gì?

+21 câu hỏi phỏng vấn

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí