
Feature Engineering
Kodowanie kategoryczne, scaling, normalizacja, feature selection, tworzenie cech, pipelines
1Jakiego typu kodowania użyć dla nominalnej zmiennej kategorycznej z niewieloma odrębnymi kategoriami (mniej niż 10)?
Jakiego typu kodowania użyć dla nominalnej zmiennej kategorycznej z niewieloma odrębnymi kategoriami (mniej niż 10)?
Odpowiedź
One-Hot Encoding jest idealny dla zmiennych nominalnych z niewieloma kategoriami, ponieważ tworzy kolumnę binarną dla każdej kategorii bez wprowadzania sztucznego porządku. W przeciwieństwie do Label Encoding, który przypisuje liczby (0, 1, 2...), One-Hot zapobiega interpretowaniu przez model nieistniejącej relacji porządkowej między kategoriami.
2Jaka jest główna różnica między StandardScaler a MinMaxScaler?
Jaka jest główna różnica między StandardScaler a MinMaxScaler?
Odpowiedź
StandardScaler centruje dane wokół 0 z odchyleniem standardowym 1 (z-score), podczas gdy MinMaxScaler normalizuje dane w stałym zakresie, zwykle [0, 1]. StandardScaler jest mniej wrażliwy na outliery, ponieważ używa średniej i odchylenia standardowego, podczas gdy MinMaxScaler może być silnie pod wpływem wartości skrajnych.
3Który scaler powinien być preferowany, gdy dane zawierają znaczące outliery?
Który scaler powinien być preferowany, gdy dane zawierają znaczące outliery?
Odpowiedź
RobustScaler używa mediany i rozstępu kwartylowego (IQR) zamiast średniej i odchylenia standardowego, co czyni go odpornym na outliery. Wartości skrajne nie wpływają znacząco na te statystyki, w przeciwieństwie do StandardScaler lub MinMaxScaler, które mogą być silnie obciążone przez outliery.
Czym jest Label Encoding i kiedy jest odpowiednie do użycia?
Jaki problem może powodować Target Encoding i jak go uniknąć?
+19 pytań z rozmów
Inne tematy rekrutacyjne Data Science & ML
Podstawy Pythona
Programowanie Obiektowe w Pythonie
Struktury danych Python
Podstawy Git
Podstawy SQL
Podstawy NumPy
Podstawy Pandas
Jupyter & Google Colab
SQL Joins i zaawansowane zapytania
Zaawansowany Pandas
Wizualizacja z Matplotlib & Seaborn
Interaktywne wizualizacje z Plotly
Statystyka opisowa
Statystyka inferencyjna
Web Scraping
BigQuery & Cloud Data
Uczenie nadzorowane: Regresja
Uczenie nadzorowane: Klasyfikacja
Drzewa Decyzyjne i Ensembles
ML Nienadzorowane
Pipeline'y ML i walidacja
Szeregi czasowe i prognozowanie
Podstawy Deep Learning
TensorFlow & Keras
CNN i klasyfikacja obrazów
RNN i Sekwencje
Transformers i Attention
NLP i Hugging Face
GenAI i LangChain
MLOps i Wdrożenie
Opanuj Data Science & ML na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo