Question 1

Lợi ích chính của việc sử dụng Pipeline scikit-learn thay vì áp dụng các phép biến đổi thủ công là gì?

Accepted Answer

Pipeline đảm bảo rằng các phép biến đổi giống nhau được áp dụng nhất quán cho cả dữ liệu training và testing. Nó đóng gói tất cả các bước preprocessing và modeling vào một đối tượng duy nhất, giúp đơn giản hóa code, ngăn ngừa data leakage và dễ dàng triển khai model vào production.

Question 2

Phương thức nào nên được gọi trên Pipeline để training tất cả các bước và đưa ra dự đoán?

Accepted Answer

Phương thức fit_predict không tồn tại cho Pipeline regression hoặc classification. Bạn cần gọi fit() trước để training pipeline, sau đó gọi predict() để nhận dự đoán. Hoặc, fit() theo sau bởi predict() có thể được gọi riêng biệt để kiểm soát nhiều hơn.

Question 3

Data leakage trong ngữ cảnh machine learning là gì?

Accepted Answer

Data leakage xảy ra khi thông tin từ test set hoặc dữ liệu tương lai vô tình được sử dụng trong quá trình training. Điều này có thể xảy ra trong quá trình preprocessing (tính mean trên toàn bộ dataset trước khi split) hoặc thông qua các feature gián tiếp chứa target. Kết quả là hiệu suất cao một cách giả tạo mà không thể tổng quát hóa.

Pipeline ML & Xác thực

Lợi ích chính của việc sử dụng Pipeline scikit-learn thay vì áp dụng các phép biến đổi thủ công là gì?

Câu trả lời

Phương thức nào nên được gọi trên Pipeline để training tất cả các bước và đưa ra dự đoán?

Câu trả lời

Data leakage trong ngữ cảnh machine learning là gì?

Câu trả lời

Vai trò của ColumnTransformer trong scikit-learn là gì?

K-Fold cross-validation là gì?

Các chủ đề phỏng vấn Data Science & ML khác

Cơ bản về Python

Lập trình Hướng đối tượng Python

Cấu trúc dữ liệu Python

Kiến Thức Cơ Bản về Git

Cơ bản về SQL

Kiến thức cơ bản về NumPy

Cơ bản về Pandas

Jupyter & Google Colab

SQL Joins & Truy vấn nâng cao

Pandas nâng cao

Trực quan hóa với Matplotlib & Seaborn

Trực quan hóa tương tác với Plotly

Thống kê mô tả

Thống kê suy luận

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Có Giám Sát: Hồi Quy

ML Có Giám Sát: Phân Loại

Cây Quyết định & Ensemble

ML Không Giám Sát

Chuỗi thời gian & Dự báo

Cơ Bản Về Deep Learning

TensorFlow & Keras

CNN và phân loại hình ảnh

RNN & Chuỗi

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps và Triển khai

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo