Data Science & ML

Feature Engineering

Kategorik encoding, scaling, normalizasyon, feature selection, feature oluşturma, pipelines

22 mülakat soruları·
Mid-Level
1

Az sayıda farklı kategoriye (10'dan az) sahip nominal kategorik bir değişken için hangi encoding türü kullanılmalıdır?

Cevap

One-Hot Encoding, her kategori için yapay bir sıralama getirmeden ikili bir sütun oluşturduğundan az kategorili nominal değişkenler için idealdir. Sayılar (0, 1, 2...) atayan Label Encoding'in aksine, One-Hot modelin kategoriler arasında var olmayan bir sıralı ilişkiyi yorumlamasını engeller.

2

StandardScaler ile MinMaxScaler arasındaki temel fark nedir?

Cevap

StandardScaler verileri standart sapma 1 (z-score) ile 0 etrafında merkezlerken, MinMaxScaler verileri sabit bir aralıkta, genellikle [0, 1] arasında normalize eder. StandardScaler ortalama ve standart sapma kullandığı için aykırı değerlere daha az duyarlıdır, MinMaxScaler ise uç değerlerden güçlü şekilde etkilenebilir.

3

Veri önemli aykırı değerler içerdiğinde hangi scaler tercih edilmelidir?

Cevap

RobustScaler ortalama ve standart sapma yerine medyan ve çeyrekler arası açıklık (IQR) kullanır, bu da onu aykırı değerlere karşı dayanıklı yapar. Uç değerler bu istatistikleri önemli ölçüde etkilemez, oysa StandardScaler veya MinMaxScaler aykırı değerlerden güçlü şekilde önyargılı olabilir.

4

Label Encoding nedir ve ne zaman kullanmak uygundur?

5

Target Encoding hangi soruna neden olabilir ve nasıl önlenebilir?

+19 mülakat soruları

Bir sonraki mülakatın için Data Science & ML'de uzmanlaş

Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.

Ücretsiz başla