
ML-Pipelines & Validierung
Scikit-learn-Pipelines, Cross-Validation, GridSearchCV, RandomizedSearchCV, Data Leakage, Stratifizierung
1Was ist der Hauptvorteil der Verwendung einer scikit-learn Pipeline gegenüber dem manuellen Anwenden von Transformationen?
Was ist der Hauptvorteil der Verwendung einer scikit-learn Pipeline gegenüber dem manuellen Anwenden von Transformationen?
Antwort
Eine Pipeline stellt sicher, dass dieselben Transformationen konsistent auf Trainings- und Testdaten angewendet werden. Sie kapselt alle Preprocessing- und Modellierungsschritte in einem einzigen Objekt, was den Code vereinfacht, Data Leakage verhindert und die Bereitstellung des Modells in der Produktion erleichtert.
2Welche Methode sollte auf einer Pipeline aufgerufen werden, um alle Schritte zu trainieren und eine Vorhersage zu treffen?
Welche Methode sollte auf einer Pipeline aufgerufen werden, um alle Schritte zu trainieren und eine Vorhersage zu treffen?
Antwort
Die fit_predict-Methode existiert nicht für Regressions- oder Klassifikations-Pipelines. Sie müssen zuerst fit() aufrufen, um die Pipeline zu trainieren, und dann predict() für die Vorhersagen. Alternativ können fit() gefolgt von predict() separat für mehr Kontrolle aufgerufen werden.
3Was ist Data Leakage im Kontext des Machine Learning?
Was ist Data Leakage im Kontext des Machine Learning?
Antwort
Data Leakage tritt auf, wenn Informationen aus dem Testset oder zukünftigen Daten versehentlich während des Trainings verwendet werden. Dies kann während des Preprocessings (Berechnung des Mittelwerts über den gesamten Datensatz vor dem Split) oder durch Features auftreten, die das Ziel indirekt enthalten. Dies führt zu künstlich hoher Leistung, die nicht generalisiert.
Welche Rolle spielt ColumnTransformer in scikit-learn?
Was ist K-Fold-Cross-Validation?
+19 Interview-Fragen
Weitere Data Science & ML-Interviewthemen
Python-Grundlagen
Python Objektorientierte Programmierung
Python-Datenstrukturen
Git-Grundlagen
SQL-Grundlagen
NumPy-Grundlagen
Pandas-Grundlagen
Jupyter & Google Colab
SQL Joins & fortgeschrittene Abfragen
Fortgeschrittenes Pandas
Visualisierung mit Matplotlib & Seaborn
Interaktive Visualisierungen mit Plotly
Deskriptive Statistik
Inferenzstatistik
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Überwachtes ML: Regression
Überwachtes ML: Klassifikation
Entscheidungsbäume & Ensembles
Unüberwachtes ML
Zeitreihen & Prognosen
Grundlagen des Deep Learning
TensorFlow & Keras
CNN und Bildklassifizierung
RNN & Sequenzen
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps und Deployment
Meistere Data Science & ML für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten