Question 1

Jaka jest główna zaleta używania Pipeline scikit-learn zamiast ręcznego stosowania transformacji?

Accepted Answer

Pipeline gwarantuje, że te same transformacje są spójnie stosowane do danych treningowych i testowych. Hermetyzuje wszystkie kroki preprocessingu i modelowania w jednym obiekcie, co upraszcza kod, zapobiega data leakage i ułatwia wdrożenie modelu na produkcję.

Question 2

Którą metodę należy wywołać na Pipeline, aby wytrenować wszystkie kroki i wykonać predykcję?

Accepted Answer

Metoda fit_predict nie istnieje dla Pipeline'ów regresji lub klasyfikacji. Najpierw należy wywołać fit(), aby wytrenować pipeline, a następnie predict(), aby uzyskać predykcje. Alternatywnie, fit() po którym następuje predict() mogą być wywoływane osobno dla większej kontroli.

Question 3

Czym jest data leakage w kontekście machine learning?

Accepted Answer

Data leakage występuje, gdy informacje z zestawu testowego lub przyszłych danych są przypadkowo używane podczas treningu. Może to się zdarzyć podczas preprocessingu (obliczanie średniej dla całego datasetu przed splitem) lub poprzez cechy, które pośrednio zawierają target. Skutkuje to sztucznie wysoką wydajnością, która się nie generalizuje.

Pipeline'y ML i walidacja

Jaka jest główna zaleta używania Pipeline scikit-learn zamiast ręcznego stosowania transformacji?

Odpowiedź

Którą metodę należy wywołać na Pipeline, aby wytrenować wszystkie kroki i wykonać predykcję?

Odpowiedź

Czym jest data leakage w kontekście machine learning?

Odpowiedź

Jaka jest rola ColumnTransformer w scikit-learn?

Czym jest K-Fold cross-validation?

Inne tematy rekrutacyjne Data Science & ML

Podstawy Pythona

Programowanie Obiektowe w Pythonie

Struktury danych Python

Podstawy Git

Podstawy SQL

Podstawy NumPy

Podstawy Pandas

Jupyter & Google Colab

SQL Joins i zaawansowane zapytania

Zaawansowany Pandas

Wizualizacja z Matplotlib & Seaborn

Interaktywne wizualizacje z Plotly

Statystyka opisowa

Statystyka inferencyjna

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Uczenie nadzorowane: Regresja

Uczenie nadzorowane: Klasyfikacja

Drzewa Decyzyjne i Ensembles

ML Nienadzorowane

Szeregi czasowe i prognozowanie

Podstawy Deep Learning

TensorFlow & Keras

CNN i klasyfikacja obrazów

RNN i Sekwencje

Transformers i Attention

NLP i Hugging Face

GenAI i LangChain

MLOps i Wdrożenie

Opanuj Data Science & ML na następną rozmowę