Question 1

Jakiego typu kodowania użyć dla nominalnej zmiennej kategorycznej z niewieloma odrębnymi kategoriami (mniej niż 10)?

Accepted Answer

One-Hot Encoding jest idealny dla zmiennych nominalnych z niewieloma kategoriami, ponieważ tworzy kolumnę binarną dla każdej kategorii bez wprowadzania sztucznego porządku. W przeciwieństwie do Label Encoding, który przypisuje liczby (0, 1, 2...), One-Hot zapobiega interpretowaniu przez model nieistniejącej relacji porządkowej między kategoriami.

Question 2

Jaka jest główna różnica między StandardScaler a MinMaxScaler?

Accepted Answer

StandardScaler centruje dane wokół 0 z odchyleniem standardowym 1 (z-score), podczas gdy MinMaxScaler normalizuje dane w stałym zakresie, zwykle [0, 1]. StandardScaler jest mniej wrażliwy na outliery, ponieważ używa średniej i odchylenia standardowego, podczas gdy MinMaxScaler może być silnie pod wpływem wartości skrajnych.

Question 3

Który scaler powinien być preferowany, gdy dane zawierają znaczące outliery?

Accepted Answer

RobustScaler używa mediany i rozstępu kwartylowego (IQR) zamiast średniej i odchylenia standardowego, co czyni go odpornym na outliery. Wartości skrajne nie wpływają znacząco na te statystyki, w przeciwieństwie do StandardScaler lub MinMaxScaler, które mogą być silnie obciążone przez outliery.

Feature Engineering

Jakiego typu kodowania użyć dla nominalnej zmiennej kategorycznej z niewieloma odrębnymi kategoriami (mniej niż 10)?

Odpowiedź

Jaka jest główna różnica między StandardScaler a MinMaxScaler?

Odpowiedź

Który scaler powinien być preferowany, gdy dane zawierają znaczące outliery?

Odpowiedź

Czym jest Label Encoding i kiedy jest odpowiednie do użycia?

Jaki problem może powodować Target Encoding i jak go uniknąć?

Inne tematy rekrutacyjne Data Science & ML

Podstawy Pythona

Programowanie Obiektowe w Pythonie

Struktury danych Python

Podstawy Git

Podstawy SQL

Podstawy NumPy

Podstawy Pandas

Jupyter & Google Colab

SQL Joins i zaawansowane zapytania

Zaawansowany Pandas

Wizualizacja z Matplotlib & Seaborn

Interaktywne wizualizacje z Plotly

Statystyka opisowa

Statystyka inferencyjna

Web Scraping

BigQuery & Cloud Data

Uczenie nadzorowane: Regresja

Uczenie nadzorowane: Klasyfikacja

Drzewa Decyzyjne i Ensembles

ML Nienadzorowane

Pipeline'y ML i walidacja

Szeregi czasowe i prognozowanie

Podstawy Deep Learning

TensorFlow & Keras

CNN i klasyfikacja obrazów

RNN i Sekwencje

Transformers i Attention

NLP i Hugging Face

GenAI i LangChain

MLOps i Wdrożenie

Opanuj Data Science & ML na następną rozmowę