Question 1

ควรใช้ encoding ประเภทใดสำหรับตัวแปร categorical แบบ nominal ที่มีหมวดหมู่แตกต่างกันน้อย (น้อยกว่า 10)?

Accepted Answer

One-Hot Encoding เหมาะสำหรับตัวแปร nominal ที่มีหมวดหมู่น้อยเพราะสร้างคอลัมน์ binary สำหรับแต่ละหมวดหมู่โดยไม่สร้างลำดับเทียม ต่างจาก Label Encoding ที่กำหนดตัวเลข (0, 1, 2...) One-Hot ป้องกันไม่ให้ model ตีความความสัมพันธ์เชิงลำดับที่ไม่มีอยู่จริงระหว่างหมวดหมู่

Question 2

ความแตกต่างหลักระหว่าง StandardScaler และ MinMaxScaler คืออะไร?

Accepted Answer

StandardScaler จัดข้อมูลให้อยู่กึ่งกลางรอบ 0 ด้วยส่วนเบี่ยงเบนมาตรฐาน 1 (z-score) ในขณะที่ MinMaxScaler ปรับข้อมูลให้อยู่ในช่วงคงที่ ปกติคือ [0, 1] StandardScaler ไวน้อยกว่าต่อ outliers เพราะใช้ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน ในขณะที่ MinMaxScaler อาจได้รับผลกระทบอย่างมากจากค่าที่สูงมาก

Question 3

ควรเลือกใช้ scaler ใดเมื่อข้อมูลมี outliers ที่สำคัญ?

Accepted Answer

RobustScaler ใช้มัธยฐานและช่วงควอไทล์ (IQR) แทนค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน ทำให้ robust ต่อ outliers ค่าที่สูงมากไม่ส่งผลกระทบอย่างมีนัยสำคัญต่อสถิติเหล่านี้ ต่างจาก StandardScaler หรือ MinMaxScaler ที่อาจมีอคติอย่างมากจาก outliers

Feature Engineering

ควรใช้ encoding ประเภทใดสำหรับตัวแปร categorical แบบ nominal ที่มีหมวดหมู่แตกต่างกันน้อย (น้อยกว่า 10)?

คำตอบ

ความแตกต่างหลักระหว่าง StandardScaler และ MinMaxScaler คืออะไร?

คำตอบ

ควรเลือกใช้ scaler ใดเมื่อข้อมูลมี outliers ที่สำคัญ?

คำตอบ

Label Encoding คืออะไรและเมื่อใดที่เหมาะสมจะใช้?

Target Encoding สามารถก่อให้เกิดปัญหาอะไรและจะหลีกเลี่ยงอย่างไร?

หัวข้อสัมภาษณ์ Data Science & ML อื่นๆ

พื้นฐาน Python

การเขียนโปรแกรมเชิงวัตถุด้วย Python

โครงสร้างข้อมูล Python

พื้นฐาน Git

พื้นฐาน SQL

พื้นฐาน NumPy

พื้นฐาน Pandas

Jupyter & Google Colab

SQL Joins และคิวรีขั้นสูง

Pandas ขั้นสูง

การแสดงผลข้อมูลด้วย Matplotlib & Seaborn

การแสดงผลแบบโต้ตอบด้วย Plotly

สถิติเชิงพรรณนา

สถิติเชิงอนุมาน

Web Scraping

BigQuery & Cloud Data

ML แบบมีผู้สอน: การถดถอย

ML แบบมีผู้สอน: การจำแนกประเภท

Decision Trees และ Ensembles

Unsupervised ML

ML Pipelines และการตรวจสอบ

Time Series และการพยากรณ์

พื้นฐาน Deep Learning

TensorFlow & Keras

CNN และการจำแนกภาพ

RNN และซีเควนซ์

Transformers และ Attention

NLP และ Hugging Face

GenAI และ LangChain

MLOps และการ Deploy

เชี่ยวชาญ Data Science & ML สำหรับการสัมภาษณ์ครั้งถัดไป