
Feature Engineering
Kategoriales Encoding, Scaling, Normalisierung, Feature Selection, Feature-Erstellung, Pipelines
1Welcher Encoding-Typ sollte für eine nominale kategoriale Variable mit wenigen unterschiedlichen Kategorien (weniger als 10) verwendet werden?
Welcher Encoding-Typ sollte für eine nominale kategoriale Variable mit wenigen unterschiedlichen Kategorien (weniger als 10) verwendet werden?
Antwort
One-Hot Encoding ist ideal für nominale Variablen mit wenigen Kategorien, da es für jede Kategorie eine binäre Spalte erstellt, ohne eine künstliche Ordnung einzuführen. Im Gegensatz zu Label Encoding, das Zahlen (0, 1, 2...) zuweist, verhindert One-Hot, dass das Modell eine nicht existierende ordinale Beziehung zwischen Kategorien interpretiert.
2Was ist der Hauptunterschied zwischen StandardScaler und MinMaxScaler?
Was ist der Hauptunterschied zwischen StandardScaler und MinMaxScaler?
Antwort
StandardScaler zentriert Daten um 0 mit einer Standardabweichung von 1 (z-Score), während MinMaxScaler Daten in einem festen Bereich normalisiert, normalerweise [0, 1]. StandardScaler ist weniger empfindlich gegenüber Ausreißern, da es Mittelwert und Standardabweichung verwendet, während MinMaxScaler stark von Extremwerten beeinflusst werden kann.
3Welcher Scaler sollte bevorzugt werden, wenn die Daten signifikante Ausreißer enthalten?
Welcher Scaler sollte bevorzugt werden, wenn die Daten signifikante Ausreißer enthalten?
Antwort
RobustScaler verwendet Median und Interquartilsabstand (IQR) anstelle von Mittelwert und Standardabweichung, was es robust gegenüber Ausreißern macht. Extremwerte beeinflussen diese Statistiken nicht signifikant, im Gegensatz zu StandardScaler oder MinMaxScaler, die stark durch Ausreißer verzerrt werden können.
Was ist Label Encoding und wann ist es angemessen, es zu verwenden?
Welches Problem kann Target Encoding verursachen und wie kann man es vermeiden?
+19 Interview-Fragen
Weitere Data Science & ML-Interviewthemen
Python-Grundlagen
Python Objektorientierte Programmierung
Python-Datenstrukturen
Git-Grundlagen
SQL-Grundlagen
NumPy-Grundlagen
Pandas-Grundlagen
Jupyter & Google Colab
SQL Joins & fortgeschrittene Abfragen
Fortgeschrittenes Pandas
Visualisierung mit Matplotlib & Seaborn
Interaktive Visualisierungen mit Plotly
Deskriptive Statistik
Inferenzstatistik
Web Scraping
BigQuery & Cloud Data
Überwachtes ML: Regression
Überwachtes ML: Klassifikation
Entscheidungsbäume & Ensembles
Unüberwachtes ML
ML-Pipelines & Validierung
Zeitreihen & Prognosen
Grundlagen des Deep Learning
TensorFlow & Keras
CNN und Bildklassifizierung
RNN & Sequenzen
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps und Deployment
Meistere Data Science & ML für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten