Question 1

Decision tree ใน Machine Learning คืออะไร?

Accepted Answer

Decision tree เป็นโมเดล Machine Learning ที่ทำการทำนายโดยการแบ่งข้อมูลตามกฎการตัดสินใจแบบลำดับชั้น แต่ละ internal node แสดงถึงการทดสอบบน feature แต่ละกิ่งแสดงถึงผลลัพธ์ของการทดสอบ และแต่ละ leaf แสดงถึงการทำนายขั้นสุดท้าย โมเดลนี้เข้าใจง่ายและตีความได้ง่าย ทำให้เป็นทางเลือกที่ดีเยี่ยมในการทำความเข้าใจปัจจัยที่มีอิทธิพลต่อการตัดสินใจ

Question 2

เกณฑ์ใดถูกใช้เป็นค่าเริ่มต้นใน scikit-learn เพื่อวัดคุณภาพของ split ใน classification tree?

Accepted Answer

Gini index คือเกณฑ์เริ่มต้นใน scikit-learn สำหรับ classification trees มันวัดความไม่บริสุทธิ์ของ node โดยการคำนวณความน่าจะเป็นที่องค์ประกอบจะถูกจัดประเภทผิดหากถูกจัดประเภทแบบสุ่มตามการกระจายของคลาส Gini เท่ากับ 0 หมายถึง node บริสุทธิ์ (คลาสเดียว) ในขณะที่ Gini สูงกว่าบ่งบอกถึงความหลากหลายของคลาสที่มากขึ้น

Question 3

ความแตกต่างหลักระหว่าง Gini index และ entropy ในฐานะเกณฑ์ split คืออะไร?

Accepted Answer

Gini index และ entropy โดยทั่วไปสร้าง tree ที่คล้ายกันมาก แต่ Gini คำนวณได้เร็วกว่าเล็กน้อยเนื่องจากไม่ต้องการการคำนวณ logarithm Entropy ซึ่งอิงตามทฤษฎีข้อมูล บางครั้งอาจสร้าง split ที่สมดุลมากขึ้นเล็กน้อย ในทางปฏิบัติ การเลือกระหว่างทั้งสองนี้ไม่ค่อยมีผลกระทบที่สำคัญต่อประสิทธิภาพของโมเดล

Decision Trees และ Ensembles

Decision tree ใน Machine Learning คืออะไร?

คำตอบ

เกณฑ์ใดถูกใช้เป็นค่าเริ่มต้นใน scikit-learn เพื่อวัดคุณภาพของ split ใน classification tree?

คำตอบ

ความแตกต่างหลักระหว่าง Gini index และ entropy ในฐานะเกณฑ์ split คืออะไร?

คำตอบ

Pruning ในบริบทของ decision trees คืออะไร?

Hyperparameter ใดควบคุมความลึกสูงสุดของ decision tree ใน scikit-learn?

หัวข้อสัมภาษณ์ Data Science & ML อื่นๆ

พื้นฐาน Python

การเขียนโปรแกรมเชิงวัตถุด้วย Python

โครงสร้างข้อมูล Python

พื้นฐาน Git

พื้นฐาน SQL

พื้นฐาน NumPy

พื้นฐาน Pandas

Jupyter & Google Colab

SQL Joins และคิวรีขั้นสูง

Pandas ขั้นสูง

การแสดงผลข้อมูลด้วย Matplotlib & Seaborn

การแสดงผลแบบโต้ตอบด้วย Plotly

สถิติเชิงพรรณนา

สถิติเชิงอนุมาน

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML แบบมีผู้สอน: การถดถอย

ML แบบมีผู้สอน: การจำแนกประเภท

Unsupervised ML

ML Pipelines และการตรวจสอบ

Time Series และการพยากรณ์

พื้นฐาน Deep Learning

TensorFlow & Keras

CNN และการจำแนกภาพ

RNN และซีเควนซ์

Transformers และ Attention

NLP และ Hugging Face

GenAI และ LangChain

MLOps และการ Deploy

เชี่ยวชาญ Data Science & ML สำหรับการสัมภาษณ์ครั้งถัดไป