Data Science & ML

Pipeline ML & Xác thực

Pipeline scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, phân tầng

22 câu hỏi phỏng vấn·
Mid-Level
1

Lợi ích chính của việc sử dụng Pipeline scikit-learn thay vì áp dụng các phép biến đổi thủ công là gì?

Câu trả lời

Pipeline đảm bảo rằng các phép biến đổi giống nhau được áp dụng nhất quán cho cả dữ liệu training và testing. Nó đóng gói tất cả các bước preprocessing và modeling vào một đối tượng duy nhất, giúp đơn giản hóa code, ngăn ngừa data leakage và dễ dàng triển khai model vào production.

2

Phương thức nào nên được gọi trên Pipeline để training tất cả các bước và đưa ra dự đoán?

Câu trả lời

Phương thức fit_predict không tồn tại cho Pipeline regression hoặc classification. Bạn cần gọi fit() trước để training pipeline, sau đó gọi predict() để nhận dự đoán. Hoặc, fit() theo sau bởi predict() có thể được gọi riêng biệt để kiểm soát nhiều hơn.

3

Data leakage trong ngữ cảnh machine learning là gì?

Câu trả lời

Data leakage xảy ra khi thông tin từ test set hoặc dữ liệu tương lai vô tình được sử dụng trong quá trình training. Điều này có thể xảy ra trong quá trình preprocessing (tính mean trên toàn bộ dataset trước khi split) hoặc thông qua các feature gián tiếp chứa target. Kết quả là hiệu suất cao một cách giả tạo mà không thể tổng quát hóa.

4

Vai trò của ColumnTransformer trong scikit-learn là gì?

5

K-Fold cross-validation là gì?

+19 câu hỏi phỏng vấn

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí