
ML Pipelines та валідація
Pipeline'и scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, стратифікація
1Яка головна перевага використання Pipeline scikit-learn замість ручного застосування трансформацій?
Яка головна перевага використання Pipeline scikit-learn замість ручного застосування трансформацій?
Відповідь
Pipeline гарантує, що однакові трансформації послідовно застосовуються до даних навчання і тестування. Він інкапсулює всі етапи preprocessing та моделювання в єдиний об'єкт, що спрощує код, запобігає data leakage і полегшує розгортання моделі в production.
2Який метод слід викликати на Pipeline, щоб навчити всі етапи та зробити прогноз?
Який метод слід викликати на Pipeline, щоб навчити всі етапи та зробити прогноз?
Відповідь
Метод fit_predict не існує для Pipeline регресії або класифікації. Спочатку потрібно викликати fit(), щоб навчити pipeline, потім predict(), щоб отримати прогнози. Альтернативно, fit() з подальшим predict() можуть бути викликані окремо для більшого контролю.
3Що таке data leakage в контексті machine learning?
Що таке data leakage в контексті machine learning?
Відповідь
Data leakage виникає, коли інформація з тестового набору або майбутніх даних випадково використовується під час навчання. Це може статися під час preprocessing (обчислення середнього по всьому датасету перед розділенням) або через ознаки, які опосередковано містять target. Це призводить до штучно високої продуктивності, яка не узагальнюється.
Яка роль ColumnTransformer у scikit-learn?
Що таке K-Fold cross-validation?
+19 питань зі співбесід
Інші теми співбесід Data Science & ML
Основи Python
Об'єктно-орієнтоване програмування Python
Структури даних Python
Основи Git
Основи SQL
Основи NumPy
Основи Pandas
Jupyter & Google Colab
SQL Joins та розширені запити
Просунутий Pandas
Візуалізація з Matplotlib & Seaborn
Інтерактивні візуалізації з Plotly
Описова статистика
Інференційна статистика
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Кероване ML: Регресія
Кероване ML: Класифікація
Дерева рішень та ансамблі
Некероване ML
Часові ряди та прогнозування
Основи Deep Learning
TensorFlow & Keras
CNN та класифікація зображень
RNN та послідовності
Transformers та Attention
NLP та Hugging Face
GenAI та LangChain
MLOps та розгортання
Опануй Data Science & ML для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно