Data Science & ML

Feature Engineering

Kategoriales Encoding, Scaling, Normalisierung, Feature Selection, Feature-Erstellung, Pipelines

22 Interview-Fragen·
Mid-Level
1

Welcher Encoding-Typ sollte für eine nominale kategoriale Variable mit wenigen unterschiedlichen Kategorien (weniger als 10) verwendet werden?

Antwort

One-Hot Encoding ist ideal für nominale Variablen mit wenigen Kategorien, da es für jede Kategorie eine binäre Spalte erstellt, ohne eine künstliche Ordnung einzuführen. Im Gegensatz zu Label Encoding, das Zahlen (0, 1, 2...) zuweist, verhindert One-Hot, dass das Modell eine nicht existierende ordinale Beziehung zwischen Kategorien interpretiert.

2

Was ist der Hauptunterschied zwischen StandardScaler und MinMaxScaler?

Antwort

StandardScaler zentriert Daten um 0 mit einer Standardabweichung von 1 (z-Score), während MinMaxScaler Daten in einem festen Bereich normalisiert, normalerweise [0, 1]. StandardScaler ist weniger empfindlich gegenüber Ausreißern, da es Mittelwert und Standardabweichung verwendet, während MinMaxScaler stark von Extremwerten beeinflusst werden kann.

3

Welcher Scaler sollte bevorzugt werden, wenn die Daten signifikante Ausreißer enthalten?

Antwort

RobustScaler verwendet Median und Interquartilsabstand (IQR) anstelle von Mittelwert und Standardabweichung, was es robust gegenüber Ausreißern macht. Extremwerte beeinflussen diese Statistiken nicht signifikant, im Gegensatz zu StandardScaler oder MinMaxScaler, die stark durch Ausreißer verzerrt werden können.

4

Was ist Label Encoding und wann ist es angemessen, es zu verwenden?

5

Welches Problem kann Target Encoding verursachen und wie kann man es vermeiden?

+19 Interview-Fragen

Meistere Data Science & ML für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten