Data Science & ML

Pipeline'y ML i walidacja

Pipeline'y scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, stratyfikacja

22 pytań z rozmów·
Mid-Level
1

Jaka jest główna zaleta używania Pipeline scikit-learn zamiast ręcznego stosowania transformacji?

Odpowiedź

Pipeline gwarantuje, że te same transformacje są spójnie stosowane do danych treningowych i testowych. Hermetyzuje wszystkie kroki preprocessingu i modelowania w jednym obiekcie, co upraszcza kod, zapobiega data leakage i ułatwia wdrożenie modelu na produkcję.

2

Którą metodę należy wywołać na Pipeline, aby wytrenować wszystkie kroki i wykonać predykcję?

Odpowiedź

Metoda fit_predict nie istnieje dla Pipeline'ów regresji lub klasyfikacji. Najpierw należy wywołać fit(), aby wytrenować pipeline, a następnie predict(), aby uzyskać predykcje. Alternatywnie, fit() po którym następuje predict() mogą być wywoływane osobno dla większej kontroli.

3

Czym jest data leakage w kontekście machine learning?

Odpowiedź

Data leakage występuje, gdy informacje z zestawu testowego lub przyszłych danych są przypadkowo używane podczas treningu. Może to się zdarzyć podczas preprocessingu (obliczanie średniej dla całego datasetu przed splitem) lub poprzez cechy, które pośrednio zawierają target. Skutkuje to sztucznie wysoką wydajnością, która się nie generalizuje.

4

Jaka jest rola ColumnTransformer w scikit-learn?

5

Czym jest K-Fold cross-validation?

+19 pytań z rozmów

Opanuj Data Science & ML na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo