Question 1

Welcher Encoding-Typ sollte für eine nominale kategoriale Variable mit wenigen unterschiedlichen Kategorien (weniger als 10) verwendet werden?

Accepted Answer

One-Hot Encoding ist ideal für nominale Variablen mit wenigen Kategorien, da es für jede Kategorie eine binäre Spalte erstellt, ohne eine künstliche Ordnung einzuführen. Im Gegensatz zu Label Encoding, das Zahlen (0, 1, 2...) zuweist, verhindert One-Hot, dass das Modell eine nicht existierende ordinale Beziehung zwischen Kategorien interpretiert.

Question 2

Was ist der Hauptunterschied zwischen StandardScaler und MinMaxScaler?

Accepted Answer

StandardScaler zentriert Daten um 0 mit einer Standardabweichung von 1 (z-Score), während MinMaxScaler Daten in einem festen Bereich normalisiert, normalerweise [0, 1]. StandardScaler ist weniger empfindlich gegenüber Ausreißern, da es Mittelwert und Standardabweichung verwendet, während MinMaxScaler stark von Extremwerten beeinflusst werden kann.

Question 3

Welcher Scaler sollte bevorzugt werden, wenn die Daten signifikante Ausreißer enthalten?

Accepted Answer

RobustScaler verwendet Median und Interquartilsabstand (IQR) anstelle von Mittelwert und Standardabweichung, was es robust gegenüber Ausreißern macht. Extremwerte beeinflussen diese Statistiken nicht signifikant, im Gegensatz zu StandardScaler oder MinMaxScaler, die stark durch Ausreißer verzerrt werden können.

Feature Engineering

Welcher Encoding-Typ sollte für eine nominale kategoriale Variable mit wenigen unterschiedlichen Kategorien (weniger als 10) verwendet werden?

Antwort

Was ist der Hauptunterschied zwischen StandardScaler und MinMaxScaler?

Antwort

Welcher Scaler sollte bevorzugt werden, wenn die Daten signifikante Ausreißer enthalten?

Antwort

Was ist Label Encoding und wann ist es angemessen, es zu verwenden?

Welches Problem kann Target Encoding verursachen und wie kann man es vermeiden?

Weitere Data Science & ML-Interviewthemen

Python-Grundlagen

Python Objektorientierte Programmierung

Python-Datenstrukturen

Git-Grundlagen

SQL-Grundlagen

NumPy-Grundlagen

Pandas-Grundlagen

Jupyter & Google Colab

SQL Joins & fortgeschrittene Abfragen

Fortgeschrittenes Pandas

Visualisierung mit Matplotlib & Seaborn

Interaktive Visualisierungen mit Plotly

Deskriptive Statistik

Inferenzstatistik

Web Scraping

BigQuery & Cloud Data

Überwachtes ML: Regression

Überwachtes ML: Klassifikation

Entscheidungsbäume & Ensembles

Unüberwachtes ML

ML-Pipelines & Validierung

Zeitreihen & Prognosen

Grundlagen des Deep Learning

TensorFlow & Keras

CNN und Bildklassifizierung

RNN & Sequenzen

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps und Deployment

Meistere Data Science & ML für dein nächstes Interview