Question 1

Decision tree trong Machine Learning là gì?

Accepted Answer

Decision tree là một mô hình Machine Learning thực hiện dự đoán bằng cách chia dữ liệu theo các quy tắc quyết định phân cấp. Mỗi node nội bộ đại diện cho một bài kiểm tra trên một feature, mỗi nhánh đại diện cho kết quả của bài kiểm tra, và mỗi lá đại diện cho dự đoán cuối cùng. Mô hình này trực quan và dễ diễn giải, là lựa chọn tuyệt vời để hiểu các yếu tố ảnh hưởng đến một quyết định.

Question 2

Tiêu chí nào được sử dụng mặc định trong scikit-learn để đo chất lượng của một split trong cây phân loại?

Accepted Answer

Gini index là tiêu chí mặc định trong scikit-learn cho classification trees. Nó đo lường độ không tinh khiết của một node bằng cách tính xác suất một phần tử bị phân loại sai nếu được phân loại ngẫu nhiên theo phân phối lớp. Gini bằng 0 nghĩa là node tinh khiết (lớp đơn), trong khi Gini cao hơn cho thấy sự đa dạng lớp lớn hơn.

Question 3

Sự khác biệt chính giữa Gini index và entropy với tư cách là tiêu chí split là gì?

Accepted Answer

Gini index và entropy thường tạo ra các cây rất giống nhau, nhưng Gini hơi nhanh hơn để tính toán vì không cần tính toán logarit. Entropy, dựa trên lý thuyết thông tin, đôi khi có thể tạo ra các split cân bằng hơn một chút. Trong thực tế, việc lựa chọn giữa hai loại hiếm khi có tác động đáng kể đến hiệu suất mô hình.

Cây Quyết định & Ensemble

Decision tree trong Machine Learning là gì?

Câu trả lời

Tiêu chí nào được sử dụng mặc định trong scikit-learn để đo chất lượng của một split trong cây phân loại?

Câu trả lời

Sự khác biệt chính giữa Gini index và entropy với tư cách là tiêu chí split là gì?

Câu trả lời

Pruning trong ngữ cảnh decision trees là gì?

Siêu tham số nào kiểm soát độ sâu tối đa của decision tree trong scikit-learn?

Các chủ đề phỏng vấn Data Science & ML khác

Cơ bản về Python

Lập trình Hướng đối tượng Python

Cấu trúc dữ liệu Python

Kiến Thức Cơ Bản về Git

Cơ bản về SQL

Kiến thức cơ bản về NumPy

Cơ bản về Pandas

Jupyter & Google Colab

SQL Joins & Truy vấn nâng cao

Pandas nâng cao

Trực quan hóa với Matplotlib & Seaborn

Trực quan hóa tương tác với Plotly

Thống kê mô tả

Thống kê suy luận

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Có Giám Sát: Hồi Quy

ML Có Giám Sát: Phân Loại

ML Không Giám Sát

Pipeline ML & Xác thực

Chuỗi thời gian & Dự báo

Cơ Bản Về Deep Learning

TensorFlow & Keras

CNN và phân loại hình ảnh

RNN & Chuỗi

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps và Triển khai

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo