Question 1

Loại encoding nào nên được sử dụng cho biến phân loại danh nghĩa với ít danh mục riêng biệt (dưới 10)?

Accepted Answer

One-Hot Encoding lý tưởng cho các biến danh nghĩa với ít danh mục vì nó tạo một cột nhị phân cho mỗi danh mục mà không đưa vào thứ tự nhân tạo. Khác với Label Encoding gán số (0, 1, 2...), One-Hot ngăn model diễn giải mối quan hệ thứ tự không tồn tại giữa các danh mục.

Question 2

Sự khác biệt chính giữa StandardScaler và MinMaxScaler là gì?

Accepted Answer

StandardScaler căn giữa dữ liệu quanh 0 với độ lệch chuẩn 1 (z-score), trong khi MinMaxScaler chuẩn hóa dữ liệu trong một khoảng cố định, thường là [0, 1]. StandardScaler ít nhạy cảm với outliers hơn vì nó sử dụng giá trị trung bình và độ lệch chuẩn, trong khi MinMaxScaler có thể bị ảnh hưởng mạnh bởi các giá trị cực trị.

Question 3

Scaler nào nên được ưu tiên khi dữ liệu chứa các outliers đáng kể?

Accepted Answer

RobustScaler sử dụng trung vị và khoảng tứ phân vị (IQR) thay vì trung bình và độ lệch chuẩn, làm cho nó robust với outliers. Các giá trị cực trị không ảnh hưởng đáng kể đến các thống kê này, không giống như StandardScaler hay MinMaxScaler có thể bị thiên vị mạnh bởi outliers.

Feature Engineering

Loại encoding nào nên được sử dụng cho biến phân loại danh nghĩa với ít danh mục riêng biệt (dưới 10)?

Câu trả lời

Sự khác biệt chính giữa StandardScaler và MinMaxScaler là gì?

Câu trả lời

Scaler nào nên được ưu tiên khi dữ liệu chứa các outliers đáng kể?

Câu trả lời

Label Encoding là gì và khi nào nên sử dụng nó?

Target Encoding có thể gây ra vấn đề gì và làm thế nào để tránh nó?

Các chủ đề phỏng vấn Data Science & ML khác

Cơ bản về Python

Lập trình Hướng đối tượng Python

Cấu trúc dữ liệu Python

Kiến Thức Cơ Bản về Git

Cơ bản về SQL

Kiến thức cơ bản về NumPy

Cơ bản về Pandas

Jupyter & Google Colab

SQL Joins & Truy vấn nâng cao

Pandas nâng cao

Trực quan hóa với Matplotlib & Seaborn

Trực quan hóa tương tác với Plotly

Thống kê mô tả

Thống kê suy luận

Web Scraping

BigQuery & Cloud Data

ML Có Giám Sát: Hồi Quy

ML Có Giám Sát: Phân Loại

Cây Quyết định & Ensemble

ML Không Giám Sát

Pipeline ML & Xác thực

Chuỗi thời gian & Dự báo

Cơ Bản Về Deep Learning

TensorFlow & Keras

CNN và phân loại hình ảnh

RNN & Chuỗi

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps và Triển khai

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo