Data Science & ML

ML-Pipelines & Validierung

Scikit-learn-Pipelines, Cross-Validation, GridSearchCV, RandomizedSearchCV, Data Leakage, Stratifizierung

22 Interview-Fragen·
Mid-Level
1

Was ist der Hauptvorteil der Verwendung einer scikit-learn Pipeline gegenüber dem manuellen Anwenden von Transformationen?

Antwort

Eine Pipeline stellt sicher, dass dieselben Transformationen konsistent auf Trainings- und Testdaten angewendet werden. Sie kapselt alle Preprocessing- und Modellierungsschritte in einem einzigen Objekt, was den Code vereinfacht, Data Leakage verhindert und die Bereitstellung des Modells in der Produktion erleichtert.

2

Welche Methode sollte auf einer Pipeline aufgerufen werden, um alle Schritte zu trainieren und eine Vorhersage zu treffen?

Antwort

Die fit_predict-Methode existiert nicht für Regressions- oder Klassifikations-Pipelines. Sie müssen zuerst fit() aufrufen, um die Pipeline zu trainieren, und dann predict() für die Vorhersagen. Alternativ können fit() gefolgt von predict() separat für mehr Kontrolle aufgerufen werden.

3

Was ist Data Leakage im Kontext des Machine Learning?

Antwort

Data Leakage tritt auf, wenn Informationen aus dem Testset oder zukünftigen Daten versehentlich während des Trainings verwendet werden. Dies kann während des Preprocessings (Berechnung des Mittelwerts über den gesamten Datensatz vor dem Split) oder durch Features auftreten, die das Ziel indirekt enthalten. Dies führt zu künstlich hoher Leistung, die nicht generalisiert.

4

Welche Rolle spielt ColumnTransformer in scikit-learn?

5

Was ist K-Fold-Cross-Validation?

+19 Interview-Fragen

Meistere Data Science & ML für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten