
Feature Engineering
Encoding phân loại, scaling, chuẩn hóa, feature selection, tạo feature, pipelines
1Loại encoding nào nên được sử dụng cho biến phân loại danh nghĩa với ít danh mục riêng biệt (dưới 10)?
Loại encoding nào nên được sử dụng cho biến phân loại danh nghĩa với ít danh mục riêng biệt (dưới 10)?
Câu trả lời
One-Hot Encoding lý tưởng cho các biến danh nghĩa với ít danh mục vì nó tạo một cột nhị phân cho mỗi danh mục mà không đưa vào thứ tự nhân tạo. Khác với Label Encoding gán số (0, 1, 2...), One-Hot ngăn model diễn giải mối quan hệ thứ tự không tồn tại giữa các danh mục.
2Sự khác biệt chính giữa StandardScaler và MinMaxScaler là gì?
Sự khác biệt chính giữa StandardScaler và MinMaxScaler là gì?
Câu trả lời
StandardScaler căn giữa dữ liệu quanh 0 với độ lệch chuẩn 1 (z-score), trong khi MinMaxScaler chuẩn hóa dữ liệu trong một khoảng cố định, thường là [0, 1]. StandardScaler ít nhạy cảm với outliers hơn vì nó sử dụng giá trị trung bình và độ lệch chuẩn, trong khi MinMaxScaler có thể bị ảnh hưởng mạnh bởi các giá trị cực trị.
3Scaler nào nên được ưu tiên khi dữ liệu chứa các outliers đáng kể?
Scaler nào nên được ưu tiên khi dữ liệu chứa các outliers đáng kể?
Câu trả lời
RobustScaler sử dụng trung vị và khoảng tứ phân vị (IQR) thay vì trung bình và độ lệch chuẩn, làm cho nó robust với outliers. Các giá trị cực trị không ảnh hưởng đáng kể đến các thống kê này, không giống như StandardScaler hay MinMaxScaler có thể bị thiên vị mạnh bởi outliers.
Label Encoding là gì và khi nào nên sử dụng nó?
Target Encoding có thể gây ra vấn đề gì và làm thế nào để tránh nó?
+19 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Science & ML khác
Cơ bản về Python
Lập trình Hướng đối tượng Python
Cấu trúc dữ liệu Python
Kiến Thức Cơ Bản về Git
Cơ bản về SQL
Kiến thức cơ bản về NumPy
Cơ bản về Pandas
Jupyter & Google Colab
SQL Joins & Truy vấn nâng cao
Pandas nâng cao
Trực quan hóa với Matplotlib & Seaborn
Trực quan hóa tương tác với Plotly
Thống kê mô tả
Thống kê suy luận
Web Scraping
BigQuery & Cloud Data
ML Có Giám Sát: Hồi Quy
ML Có Giám Sát: Phân Loại
Cây Quyết định & Ensemble
ML Không Giám Sát
Pipeline ML & Xác thực
Chuỗi thời gian & Dự báo
Cơ Bản Về Deep Learning
TensorFlow & Keras
CNN và phân loại hình ảnh
RNN & Chuỗi
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps và Triển khai
Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí