
Feature Engineering
การ encoding หมวดหมู่, scaling, normalization, feature selection, การสร้าง feature, pipelines
1ควรใช้ encoding ประเภทใดสำหรับตัวแปร categorical แบบ nominal ที่มีหมวดหมู่แตกต่างกันน้อย (น้อยกว่า 10)?
ควรใช้ encoding ประเภทใดสำหรับตัวแปร categorical แบบ nominal ที่มีหมวดหมู่แตกต่างกันน้อย (น้อยกว่า 10)?
คำตอบ
One-Hot Encoding เหมาะสำหรับตัวแปร nominal ที่มีหมวดหมู่น้อยเพราะสร้างคอลัมน์ binary สำหรับแต่ละหมวดหมู่โดยไม่สร้างลำดับเทียม ต่างจาก Label Encoding ที่กำหนดตัวเลข (0, 1, 2...) One-Hot ป้องกันไม่ให้ model ตีความความสัมพันธ์เชิงลำดับที่ไม่มีอยู่จริงระหว่างหมวดหมู่
2ความแตกต่างหลักระหว่าง StandardScaler และ MinMaxScaler คืออะไร?
ความแตกต่างหลักระหว่าง StandardScaler และ MinMaxScaler คืออะไร?
คำตอบ
StandardScaler จัดข้อมูลให้อยู่กึ่งกลางรอบ 0 ด้วยส่วนเบี่ยงเบนมาตรฐาน 1 (z-score) ในขณะที่ MinMaxScaler ปรับข้อมูลให้อยู่ในช่วงคงที่ ปกติคือ [0, 1] StandardScaler ไวน้อยกว่าต่อ outliers เพราะใช้ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน ในขณะที่ MinMaxScaler อาจได้รับผลกระทบอย่างมากจากค่าที่สูงมาก
3ควรเลือกใช้ scaler ใดเมื่อข้อมูลมี outliers ที่สำคัญ?
ควรเลือกใช้ scaler ใดเมื่อข้อมูลมี outliers ที่สำคัญ?
คำตอบ
RobustScaler ใช้มัธยฐานและช่วงควอไทล์ (IQR) แทนค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน ทำให้ robust ต่อ outliers ค่าที่สูงมากไม่ส่งผลกระทบอย่างมีนัยสำคัญต่อสถิติเหล่านี้ ต่างจาก StandardScaler หรือ MinMaxScaler ที่อาจมีอคติอย่างมากจาก outliers
Label Encoding คืออะไรและเมื่อใดที่เหมาะสมจะใช้?
Target Encoding สามารถก่อให้เกิดปัญหาอะไรและจะหลีกเลี่ยงอย่างไร?
+19 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Science & ML อื่นๆ
พื้นฐาน Python
การเขียนโปรแกรมเชิงวัตถุด้วย Python
โครงสร้างข้อมูล Python
พื้นฐาน Git
พื้นฐาน SQL
พื้นฐาน NumPy
พื้นฐาน Pandas
Jupyter & Google Colab
SQL Joins และคิวรีขั้นสูง
Pandas ขั้นสูง
การแสดงผลข้อมูลด้วย Matplotlib & Seaborn
การแสดงผลแบบโต้ตอบด้วย Plotly
สถิติเชิงพรรณนา
สถิติเชิงอนุมาน
Web Scraping
BigQuery & Cloud Data
ML แบบมีผู้สอน: การถดถอย
ML แบบมีผู้สอน: การจำแนกประเภท
Decision Trees และ Ensembles
Unsupervised ML
ML Pipelines และการตรวจสอบ
Time Series และการพยากรณ์
พื้นฐาน Deep Learning
TensorFlow & Keras
CNN และการจำแนกภาพ
RNN และซีเควนซ์
Transformers และ Attention
NLP และ Hugging Face
GenAI และ LangChain
MLOps และการ Deploy
เชี่ยวชาญ Data Science & ML สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี