Data Science & ML

Pipeline ML & Validasi

Pipeline scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, stratifikasi

22 pertanyaan wawancara·
Mid-Level
1

Apa keuntungan utama menggunakan Pipeline scikit-learn dibandingkan menerapkan transformasi secara manual?

Jawaban

Pipeline memastikan bahwa transformasi yang sama diterapkan secara konsisten pada data training dan testing. Pipeline mengenkapsulasi semua langkah preprocessing dan modeling ke dalam satu objek, yang menyederhanakan kode, mencegah data leakage, dan memudahkan deployment model ke production.

2

Method mana yang harus dipanggil pada Pipeline untuk melatih semua langkah dan membuat prediksi?

Jawaban

Method fit_predict tidak ada untuk Pipeline regresi atau klasifikasi. Anda perlu memanggil fit() terlebih dahulu untuk melatih pipeline, kemudian predict() untuk mendapatkan prediksi. Alternatifnya, fit() diikuti predict() dapat dipanggil secara terpisah untuk kontrol lebih.

3

Apa itu data leakage dalam konteks machine learning?

Jawaban

Data leakage terjadi ketika informasi dari test set atau data masa depan secara tidak sengaja digunakan selama training. Ini bisa terjadi selama preprocessing (menghitung mean atas seluruh dataset sebelum split) atau melalui feature yang secara tidak langsung mengandung target. Ini menghasilkan performa yang artifisial tinggi yang tidak dapat digeneralisasi.

4

Apa peran ColumnTransformer di scikit-learn?

5

Apa itu K-Fold cross-validation?

+19 pertanyaan wawancara

Kuasai Data Science & ML untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis