Question 1

Was ist der Hauptvorteil der Verwendung einer scikit-learn Pipeline gegenüber dem manuellen Anwenden von Transformationen?

Accepted Answer

Eine Pipeline stellt sicher, dass dieselben Transformationen konsistent auf Trainings- und Testdaten angewendet werden. Sie kapselt alle Preprocessing- und Modellierungsschritte in einem einzigen Objekt, was den Code vereinfacht, Data Leakage verhindert und die Bereitstellung des Modells in der Produktion erleichtert.

Question 2

Welche Methode sollte auf einer Pipeline aufgerufen werden, um alle Schritte zu trainieren und eine Vorhersage zu treffen?

Accepted Answer

Die fit_predict-Methode existiert nicht für Regressions- oder Klassifikations-Pipelines. Sie müssen zuerst fit() aufrufen, um die Pipeline zu trainieren, und dann predict() für die Vorhersagen. Alternativ können fit() gefolgt von predict() separat für mehr Kontrolle aufgerufen werden.

Question 3

Was ist Data Leakage im Kontext des Machine Learning?

Accepted Answer

Data Leakage tritt auf, wenn Informationen aus dem Testset oder zukünftigen Daten versehentlich während des Trainings verwendet werden. Dies kann während des Preprocessings (Berechnung des Mittelwerts über den gesamten Datensatz vor dem Split) oder durch Features auftreten, die das Ziel indirekt enthalten. Dies führt zu künstlich hoher Leistung, die nicht generalisiert.

ML-Pipelines & Validierung

Was ist der Hauptvorteil der Verwendung einer scikit-learn Pipeline gegenüber dem manuellen Anwenden von Transformationen?

Antwort

Welche Methode sollte auf einer Pipeline aufgerufen werden, um alle Schritte zu trainieren und eine Vorhersage zu treffen?

Antwort

Was ist Data Leakage im Kontext des Machine Learning?

Antwort

Welche Rolle spielt ColumnTransformer in scikit-learn?

Was ist K-Fold-Cross-Validation?

Weitere Data Science & ML-Interviewthemen

Python-Grundlagen

Python Objektorientierte Programmierung

Python-Datenstrukturen

Git-Grundlagen

SQL-Grundlagen

NumPy-Grundlagen

Pandas-Grundlagen

Jupyter & Google Colab

SQL Joins & fortgeschrittene Abfragen

Fortgeschrittenes Pandas

Visualisierung mit Matplotlib & Seaborn

Interaktive Visualisierungen mit Plotly

Deskriptive Statistik

Inferenzstatistik

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Überwachtes ML: Regression

Überwachtes ML: Klassifikation

Entscheidungsbäume & Ensembles

Unüberwachtes ML

Zeitreihen & Prognosen

Grundlagen des Deep Learning

TensorFlow & Keras

CNN und Bildklassifizierung

RNN & Sequenzen

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps und Deployment

Meistere Data Science & ML für dein nächstes Interview