Data Science & ML

Feature Engineering

Kodowanie kategoryczne, scaling, normalizacja, feature selection, tworzenie cech, pipelines

22 pytań z rozmów·
Mid-Level
1

Jakiego typu kodowania użyć dla nominalnej zmiennej kategorycznej z niewieloma odrębnymi kategoriami (mniej niż 10)?

Odpowiedź

One-Hot Encoding jest idealny dla zmiennych nominalnych z niewieloma kategoriami, ponieważ tworzy kolumnę binarną dla każdej kategorii bez wprowadzania sztucznego porządku. W przeciwieństwie do Label Encoding, który przypisuje liczby (0, 1, 2...), One-Hot zapobiega interpretowaniu przez model nieistniejącej relacji porządkowej między kategoriami.

2

Jaka jest główna różnica między StandardScaler a MinMaxScaler?

Odpowiedź

StandardScaler centruje dane wokół 0 z odchyleniem standardowym 1 (z-score), podczas gdy MinMaxScaler normalizuje dane w stałym zakresie, zwykle [0, 1]. StandardScaler jest mniej wrażliwy na outliery, ponieważ używa średniej i odchylenia standardowego, podczas gdy MinMaxScaler może być silnie pod wpływem wartości skrajnych.

3

Który scaler powinien być preferowany, gdy dane zawierają znaczące outliery?

Odpowiedź

RobustScaler używa mediany i rozstępu kwartylowego (IQR) zamiast średniej i odchylenia standardowego, co czyni go odpornym na outliery. Wartości skrajne nie wpływają znacząco na te statystyki, w przeciwieństwie do StandardScaler lub MinMaxScaler, które mogą być silnie obciążone przez outliery.

4

Czym jest Label Encoding i kiedy jest odpowiednie do użycia?

5

Jaki problem może powodować Target Encoding i jak go uniknąć?

+19 pytań z rozmów

Opanuj Data Science & ML na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo