
NLP & Hugging Face
Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference
1Chức năng chính của tokenization trong xử lý ngôn ngữ tự nhiên là gì?
Chức năng chính của tokenization trong xử lý ngôn ngữ tự nhiên là gì?
Câu trả lời
Tokenization chia văn bản thô thành các đơn vị nhỏ hơn được gọi là token, có thể là từ, sub-word hoặc ký tự. Bước này rất cần thiết vì các mô hình ngôn ngữ không thể xử lý trực tiếp văn bản thô. Mỗi token sau đó được chuyển đổi thành một định danh số mà mô hình có thể xử lý.
2Ưu điểm chính của thuật toán BPE (Byte Pair Encoding) so với tokenization cấp từ là gì?
Ưu điểm chính của thuật toán BPE (Byte Pair Encoding) so với tokenization cấp từ là gì?
Câu trả lời
BPE xử lý các từ không xác định (out-of-vocabulary) bằng cách phân tách chúng thành các sub-unit đã biết. Khác với tokenization cấp từ thay thế các từ không xác định bằng token đặc biệt [UNK], BPE có thể biểu diễn bất kỳ từ nào dưới dạng tổ hợp các sub-word có trong từ vựng, cho phép khái quát hóa cho các từ chưa bao giờ thấy trong quá trình huấn luyện.
3Sự khác biệt cơ bản giữa WordPiece và BPE để xây dựng từ vựng là gì?
Sự khác biệt cơ bản giữa WordPiece và BPE để xây dựng từ vựng là gì?
Câu trả lời
BPE hợp nhất các cặp token thường xuyên nhất, trong khi WordPiece chọn các hợp nhất tối đa hóa khả năng của corpus huấn luyện. Do đó, WordPiece sử dụng tiêu chí xác suất thay vì thuần túy theo tần suất, có thể tạo ra các phân chia hơi khác và có khả năng phù hợp hơn với mô hình ngôn ngữ cuối cùng.
Sự khác biệt chính giữa word embeddings tĩnh (Word2Vec) và embeddings ngữ cảnh (BERT) là gì?
Hai nhiệm vụ pre-training mà BERT sử dụng là gì?
+21 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Science & ML khác
Cơ bản về Python
Lập trình Hướng đối tượng Python
Cấu trúc dữ liệu Python
Kiến Thức Cơ Bản về Git
Cơ bản về SQL
Kiến thức cơ bản về NumPy
Cơ bản về Pandas
Jupyter & Google Colab
SQL Joins & Truy vấn nâng cao
Pandas nâng cao
Trực quan hóa với Matplotlib & Seaborn
Trực quan hóa tương tác với Plotly
Thống kê mô tả
Thống kê suy luận
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Có Giám Sát: Hồi Quy
ML Có Giám Sát: Phân Loại
Cây Quyết định & Ensemble
ML Không Giám Sát
Pipeline ML & Xác thực
Chuỗi thời gian & Dự báo
Cơ Bản Về Deep Learning
TensorFlow & Keras
CNN và phân loại hình ảnh
RNN & Chuỗi
Transformers & Attention
GenAI & LangChain
MLOps và Triển khai
Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí