
Pipeline'y ML i walidacja
Pipeline'y scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, stratyfikacja
1Jaka jest główna zaleta używania Pipeline scikit-learn zamiast ręcznego stosowania transformacji?
Jaka jest główna zaleta używania Pipeline scikit-learn zamiast ręcznego stosowania transformacji?
Odpowiedź
Pipeline gwarantuje, że te same transformacje są spójnie stosowane do danych treningowych i testowych. Hermetyzuje wszystkie kroki preprocessingu i modelowania w jednym obiekcie, co upraszcza kod, zapobiega data leakage i ułatwia wdrożenie modelu na produkcję.
2Którą metodę należy wywołać na Pipeline, aby wytrenować wszystkie kroki i wykonać predykcję?
Którą metodę należy wywołać na Pipeline, aby wytrenować wszystkie kroki i wykonać predykcję?
Odpowiedź
Metoda fit_predict nie istnieje dla Pipeline'ów regresji lub klasyfikacji. Najpierw należy wywołać fit(), aby wytrenować pipeline, a następnie predict(), aby uzyskać predykcje. Alternatywnie, fit() po którym następuje predict() mogą być wywoływane osobno dla większej kontroli.
3Czym jest data leakage w kontekście machine learning?
Czym jest data leakage w kontekście machine learning?
Odpowiedź
Data leakage występuje, gdy informacje z zestawu testowego lub przyszłych danych są przypadkowo używane podczas treningu. Może to się zdarzyć podczas preprocessingu (obliczanie średniej dla całego datasetu przed splitem) lub poprzez cechy, które pośrednio zawierają target. Skutkuje to sztucznie wysoką wydajnością, która się nie generalizuje.
Jaka jest rola ColumnTransformer w scikit-learn?
Czym jest K-Fold cross-validation?
+19 pytań z rozmów
Inne tematy rekrutacyjne Data Science & ML
Podstawy Pythona
Programowanie Obiektowe w Pythonie
Struktury danych Python
Podstawy Git
Podstawy SQL
Podstawy NumPy
Podstawy Pandas
Jupyter & Google Colab
SQL Joins i zaawansowane zapytania
Zaawansowany Pandas
Wizualizacja z Matplotlib & Seaborn
Interaktywne wizualizacje z Plotly
Statystyka opisowa
Statystyka inferencyjna
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Uczenie nadzorowane: Regresja
Uczenie nadzorowane: Klasyfikacja
Drzewa Decyzyjne i Ensembles
ML Nienadzorowane
Szeregi czasowe i prognozowanie
Podstawy Deep Learning
TensorFlow & Keras
CNN i klasyfikacja obrazów
RNN i Sekwencje
Transformers i Attention
NLP i Hugging Face
GenAI i LangChain
MLOps i Wdrożenie
Opanuj Data Science & ML na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo