Data Science & ML

Feature Engineering

Encoding phân loại, scaling, chuẩn hóa, feature selection, tạo feature, pipelines

22 câu hỏi phỏng vấn·
Mid-Level
1

Loại encoding nào nên được sử dụng cho biến phân loại danh nghĩa với ít danh mục riêng biệt (dưới 10)?

Câu trả lời

One-Hot Encoding lý tưởng cho các biến danh nghĩa với ít danh mục vì nó tạo một cột nhị phân cho mỗi danh mục mà không đưa vào thứ tự nhân tạo. Khác với Label Encoding gán số (0, 1, 2...), One-Hot ngăn model diễn giải mối quan hệ thứ tự không tồn tại giữa các danh mục.

2

Sự khác biệt chính giữa StandardScaler và MinMaxScaler là gì?

Câu trả lời

StandardScaler căn giữa dữ liệu quanh 0 với độ lệch chuẩn 1 (z-score), trong khi MinMaxScaler chuẩn hóa dữ liệu trong một khoảng cố định, thường là [0, 1]. StandardScaler ít nhạy cảm với outliers hơn vì nó sử dụng giá trị trung bình và độ lệch chuẩn, trong khi MinMaxScaler có thể bị ảnh hưởng mạnh bởi các giá trị cực trị.

3

Scaler nào nên được ưu tiên khi dữ liệu chứa các outliers đáng kể?

Câu trả lời

RobustScaler sử dụng trung vị và khoảng tứ phân vị (IQR) thay vì trung bình và độ lệch chuẩn, làm cho nó robust với outliers. Các giá trị cực trị không ảnh hưởng đáng kể đến các thống kê này, không giống như StandardScaler hay MinMaxScaler có thể bị thiên vị mạnh bởi outliers.

4

Label Encoding là gì và khi nào nên sử dụng nó?

5

Target Encoding có thể gây ra vấn đề gì và làm thế nào để tránh nó?

+19 câu hỏi phỏng vấn

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí