Data Science & ML

Cây Quyết định & Ensemble

Decision Trees, Random Forest, Gradient Boosting, XGBoost, hyperparameter tuning, feature importance

24 câu hỏi phỏng vấn·
Mid-Level
1

Decision tree trong Machine Learning là gì?

Câu trả lời

Decision tree là một mô hình Machine Learning thực hiện dự đoán bằng cách chia dữ liệu theo các quy tắc quyết định phân cấp. Mỗi node nội bộ đại diện cho một bài kiểm tra trên một feature, mỗi nhánh đại diện cho kết quả của bài kiểm tra, và mỗi lá đại diện cho dự đoán cuối cùng. Mô hình này trực quan và dễ diễn giải, là lựa chọn tuyệt vời để hiểu các yếu tố ảnh hưởng đến một quyết định.

2

Tiêu chí nào được sử dụng mặc định trong scikit-learn để đo chất lượng của một split trong cây phân loại?

Câu trả lời

Gini index là tiêu chí mặc định trong scikit-learn cho classification trees. Nó đo lường độ không tinh khiết của một node bằng cách tính xác suất một phần tử bị phân loại sai nếu được phân loại ngẫu nhiên theo phân phối lớp. Gini bằng 0 nghĩa là node tinh khiết (lớp đơn), trong khi Gini cao hơn cho thấy sự đa dạng lớp lớn hơn.

3

Sự khác biệt chính giữa Gini index và entropy với tư cách là tiêu chí split là gì?

Câu trả lời

Gini index và entropy thường tạo ra các cây rất giống nhau, nhưng Gini hơi nhanh hơn để tính toán vì không cần tính toán logarit. Entropy, dựa trên lý thuyết thông tin, đôi khi có thể tạo ra các split cân bằng hơn một chút. Trong thực tế, việc lựa chọn giữa hai loại hiếm khi có tác động đáng kể đến hiệu suất mô hình.

4

Pruning trong ngữ cảnh decision trees là gì?

5

Siêu tham số nào kiểm soát độ sâu tối đa của decision tree trong scikit-learn?

+21 câu hỏi phỏng vấn

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí