
Pipeline ML & Validasi
Pipeline scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, stratifikasi
1Apa keuntungan utama menggunakan Pipeline scikit-learn dibandingkan menerapkan transformasi secara manual?
Apa keuntungan utama menggunakan Pipeline scikit-learn dibandingkan menerapkan transformasi secara manual?
Jawaban
Pipeline memastikan bahwa transformasi yang sama diterapkan secara konsisten pada data training dan testing. Pipeline mengenkapsulasi semua langkah preprocessing dan modeling ke dalam satu objek, yang menyederhanakan kode, mencegah data leakage, dan memudahkan deployment model ke production.
2Method mana yang harus dipanggil pada Pipeline untuk melatih semua langkah dan membuat prediksi?
Method mana yang harus dipanggil pada Pipeline untuk melatih semua langkah dan membuat prediksi?
Jawaban
Method fit_predict tidak ada untuk Pipeline regresi atau klasifikasi. Anda perlu memanggil fit() terlebih dahulu untuk melatih pipeline, kemudian predict() untuk mendapatkan prediksi. Alternatifnya, fit() diikuti predict() dapat dipanggil secara terpisah untuk kontrol lebih.
3Apa itu data leakage dalam konteks machine learning?
Apa itu data leakage dalam konteks machine learning?
Jawaban
Data leakage terjadi ketika informasi dari test set atau data masa depan secara tidak sengaja digunakan selama training. Ini bisa terjadi selama preprocessing (menghitung mean atas seluruh dataset sebelum split) atau melalui feature yang secara tidak langsung mengandung target. Ini menghasilkan performa yang artifisial tinggi yang tidak dapat digeneralisasi.
Apa peran ColumnTransformer di scikit-learn?
Apa itu K-Fold cross-validation?
+19 pertanyaan wawancara
Topik wawancara Data Science & ML lainnya
Dasar-dasar Python
Pemrograman Berorientasi Objek Python
Struktur Data Python
Dasar-Dasar Git
Dasar-dasar SQL
Dasar-Dasar NumPy
Dasar-dasar Pandas
Jupyter & Google Colab
SQL Joins & Kueri Lanjutan
Pandas Lanjutan
Visualisasi dengan Matplotlib & Seaborn
Visualisasi Interaktif dengan Plotly
Statistik Deskriptif
Statistik Inferensial
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Terbimbing: Regresi
ML Terbimbing: Klasifikasi
Pohon Keputusan & Ensemble
ML Tanpa Pengawasan
Deret Waktu & Peramalan
Dasar-Dasar Deep Learning
TensorFlow & Keras
CNN dan klasifikasi gambar
RNN & Sekuens
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps dan Deployment
Kuasai Data Science & ML untuk wawancara berikutnya
Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.
Mulai gratis