
Pipeline ML & Xác thực
Pipeline scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, phân tầng
1Lợi ích chính của việc sử dụng Pipeline scikit-learn thay vì áp dụng các phép biến đổi thủ công là gì?
Lợi ích chính của việc sử dụng Pipeline scikit-learn thay vì áp dụng các phép biến đổi thủ công là gì?
Câu trả lời
Pipeline đảm bảo rằng các phép biến đổi giống nhau được áp dụng nhất quán cho cả dữ liệu training và testing. Nó đóng gói tất cả các bước preprocessing và modeling vào một đối tượng duy nhất, giúp đơn giản hóa code, ngăn ngừa data leakage và dễ dàng triển khai model vào production.
2Phương thức nào nên được gọi trên Pipeline để training tất cả các bước và đưa ra dự đoán?
Phương thức nào nên được gọi trên Pipeline để training tất cả các bước và đưa ra dự đoán?
Câu trả lời
Phương thức fit_predict không tồn tại cho Pipeline regression hoặc classification. Bạn cần gọi fit() trước để training pipeline, sau đó gọi predict() để nhận dự đoán. Hoặc, fit() theo sau bởi predict() có thể được gọi riêng biệt để kiểm soát nhiều hơn.
3Data leakage trong ngữ cảnh machine learning là gì?
Data leakage trong ngữ cảnh machine learning là gì?
Câu trả lời
Data leakage xảy ra khi thông tin từ test set hoặc dữ liệu tương lai vô tình được sử dụng trong quá trình training. Điều này có thể xảy ra trong quá trình preprocessing (tính mean trên toàn bộ dataset trước khi split) hoặc thông qua các feature gián tiếp chứa target. Kết quả là hiệu suất cao một cách giả tạo mà không thể tổng quát hóa.
Vai trò của ColumnTransformer trong scikit-learn là gì?
K-Fold cross-validation là gì?
+19 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Science & ML khác
Cơ bản về Python
Lập trình Hướng đối tượng Python
Cấu trúc dữ liệu Python
Kiến Thức Cơ Bản về Git
Cơ bản về SQL
Kiến thức cơ bản về NumPy
Cơ bản về Pandas
Jupyter & Google Colab
SQL Joins & Truy vấn nâng cao
Pandas nâng cao
Trực quan hóa với Matplotlib & Seaborn
Trực quan hóa tương tác với Plotly
Thống kê mô tả
Thống kê suy luận
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Có Giám Sát: Hồi Quy
ML Có Giám Sát: Phân Loại
Cây Quyết định & Ensemble
ML Không Giám Sát
Chuỗi thời gian & Dự báo
Cơ Bản Về Deep Learning
TensorFlow & Keras
CNN và phân loại hình ảnh
RNN & Chuỗi
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps và Triển khai
Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí