Question 1

Яка головна перевага використання Pipeline scikit-learn замість ручного застосування трансформацій?

Accepted Answer

Pipeline гарантує, що однакові трансформації послідовно застосовуються до даних навчання і тестування. Він інкапсулює всі етапи preprocessing та моделювання в єдиний об'єкт, що спрощує код, запобігає data leakage і полегшує розгортання моделі в production.

Question 2

Який метод слід викликати на Pipeline, щоб навчити всі етапи та зробити прогноз?

Accepted Answer

Метод fit_predict не існує для Pipeline регресії або класифікації. Спочатку потрібно викликати fit(), щоб навчити pipeline, потім predict(), щоб отримати прогнози. Альтернативно, fit() з подальшим predict() можуть бути викликані окремо для більшого контролю.

Question 3

Що таке data leakage в контексті machine learning?

Accepted Answer

Data leakage виникає, коли інформація з тестового набору або майбутніх даних випадково використовується під час навчання. Це може статися під час preprocessing (обчислення середнього по всьому датасету перед розділенням) або через ознаки, які опосередковано містять target. Це призводить до штучно високої продуктивності, яка не узагальнюється.

ML Pipelines та валідація

Яка головна перевага використання Pipeline scikit-learn замість ручного застосування трансформацій?

Відповідь

Який метод слід викликати на Pipeline, щоб навчити всі етапи та зробити прогноз?

Відповідь

Що таке data leakage в контексті machine learning?

Відповідь

Яка роль ColumnTransformer у scikit-learn?

Що таке K-Fold cross-validation?

Інші теми співбесід Data Science & ML

Основи Python

Об'єктно-орієнтоване програмування Python

Структури даних Python

Основи Git

Основи SQL

Основи NumPy

Основи Pandas

Jupyter & Google Colab

SQL Joins та розширені запити

Просунутий Pandas

Візуалізація з Matplotlib & Seaborn

Інтерактивні візуалізації з Plotly

Описова статистика

Інференційна статистика

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Кероване ML: Регресія

Кероване ML: Класифікація

Дерева рішень та ансамблі

Некероване ML

Часові ряди та прогнозування

Основи Deep Learning

TensorFlow & Keras

CNN та класифікація зображень

RNN та послідовності

Transformers та Attention

NLP та Hugging Face

GenAI та LangChain

MLOps та розгортання

Опануй Data Science & ML для наступної співбесіди