Data Science & ML

ML Pipeline'ları & Doğrulama

Scikit-learn pipeline'ları, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, katmanlama

22 mülakat soruları·
Mid-Level
1

Dönüşümleri manuel olarak uygulamak yerine scikit-learn Pipeline kullanmanın temel avantajı nedir?

Cevap

Bir Pipeline, aynı dönüşümlerin hem eğitim hem de test verilerine tutarlı bir şekilde uygulanmasını sağlar. Tüm preprocessing ve modelleme adımlarını tek bir nesnede kapsüller, bu da kodu basitleştirir, data leakage'i önler ve modelin production'a dağıtımını kolaylaştırır.

2

Bir Pipeline'da tüm adımları eğitmek ve bir tahmin yapmak için hangi method çağrılmalıdır?

Cevap

fit_predict methodu regresyon veya sınıflandırma Pipeline'ları için mevcut değildir. Önce pipeline'ı eğitmek için fit() çağırmanız, sonra tahminleri almak için predict() çağırmanız gerekir. Alternatif olarak, daha fazla kontrol için fit() ardından predict() ayrı ayrı çağrılabilir.

3

Machine learning bağlamında data leakage nedir?

Cevap

Data leakage, test setinden veya gelecekteki verilerden gelen bilgilerin eğitim sırasında yanlışlıkla kullanılması durumunda oluşur. Bu, preprocessing sırasında (split öncesi tüm dataset üzerinde mean hesaplama) veya hedefi dolaylı olarak içeren özellikler aracılığıyla olabilir. Genelleşmeyen yapay olarak yüksek performansla sonuçlanır.

4

scikit-learn'de ColumnTransformer'ın rolü nedir?

5

K-Fold cross-validation nedir?

+19 mülakat soruları

Bir sonraki mülakatın için Data Science & ML'de uzmanlaş

Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.

Ücretsiz başla