
Cây Quyết định & Ensemble
Decision Trees, Random Forest, Gradient Boosting, XGBoost, hyperparameter tuning, feature importance
1Decision tree trong Machine Learning là gì?
Decision tree trong Machine Learning là gì?
Câu trả lời
Decision tree là một mô hình Machine Learning thực hiện dự đoán bằng cách chia dữ liệu theo các quy tắc quyết định phân cấp. Mỗi node nội bộ đại diện cho một bài kiểm tra trên một feature, mỗi nhánh đại diện cho kết quả của bài kiểm tra, và mỗi lá đại diện cho dự đoán cuối cùng. Mô hình này trực quan và dễ diễn giải, là lựa chọn tuyệt vời để hiểu các yếu tố ảnh hưởng đến một quyết định.
2Tiêu chí nào được sử dụng mặc định trong scikit-learn để đo chất lượng của một split trong cây phân loại?
Tiêu chí nào được sử dụng mặc định trong scikit-learn để đo chất lượng của một split trong cây phân loại?
Câu trả lời
Gini index là tiêu chí mặc định trong scikit-learn cho classification trees. Nó đo lường độ không tinh khiết của một node bằng cách tính xác suất một phần tử bị phân loại sai nếu được phân loại ngẫu nhiên theo phân phối lớp. Gini bằng 0 nghĩa là node tinh khiết (lớp đơn), trong khi Gini cao hơn cho thấy sự đa dạng lớp lớn hơn.
3Sự khác biệt chính giữa Gini index và entropy với tư cách là tiêu chí split là gì?
Sự khác biệt chính giữa Gini index và entropy với tư cách là tiêu chí split là gì?
Câu trả lời
Gini index và entropy thường tạo ra các cây rất giống nhau, nhưng Gini hơi nhanh hơn để tính toán vì không cần tính toán logarit. Entropy, dựa trên lý thuyết thông tin, đôi khi có thể tạo ra các split cân bằng hơn một chút. Trong thực tế, việc lựa chọn giữa hai loại hiếm khi có tác động đáng kể đến hiệu suất mô hình.
Pruning trong ngữ cảnh decision trees là gì?
Siêu tham số nào kiểm soát độ sâu tối đa của decision tree trong scikit-learn?
+21 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Science & ML khác
Cơ bản về Python
Lập trình Hướng đối tượng Python
Cấu trúc dữ liệu Python
Kiến Thức Cơ Bản về Git
Cơ bản về SQL
Kiến thức cơ bản về NumPy
Cơ bản về Pandas
Jupyter & Google Colab
SQL Joins & Truy vấn nâng cao
Pandas nâng cao
Trực quan hóa với Matplotlib & Seaborn
Trực quan hóa tương tác với Plotly
Thống kê mô tả
Thống kê suy luận
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Có Giám Sát: Hồi Quy
ML Có Giám Sát: Phân Loại
ML Không Giám Sát
Pipeline ML & Xác thực
Chuỗi thời gian & Dự báo
Cơ Bản Về Deep Learning
TensorFlow & Keras
CNN và phân loại hình ảnh
RNN & Chuỗi
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps và Triển khai
Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí