Question 1

Apa keuntungan utama menggunakan Pipeline scikit-learn dibandingkan menerapkan transformasi secara manual?

Accepted Answer

Pipeline memastikan bahwa transformasi yang sama diterapkan secara konsisten pada data training dan testing. Pipeline mengenkapsulasi semua langkah preprocessing dan modeling ke dalam satu objek, yang menyederhanakan kode, mencegah data leakage, dan memudahkan deployment model ke production.

Question 2

Method mana yang harus dipanggil pada Pipeline untuk melatih semua langkah dan membuat prediksi?

Accepted Answer

Method fit_predict tidak ada untuk Pipeline regresi atau klasifikasi. Anda perlu memanggil fit() terlebih dahulu untuk melatih pipeline, kemudian predict() untuk mendapatkan prediksi. Alternatifnya, fit() diikuti predict() dapat dipanggil secara terpisah untuk kontrol lebih.

Question 3

Apa itu data leakage dalam konteks machine learning?

Accepted Answer

Data leakage terjadi ketika informasi dari test set atau data masa depan secara tidak sengaja digunakan selama training. Ini bisa terjadi selama preprocessing (menghitung mean atas seluruh dataset sebelum split) atau melalui feature yang secara tidak langsung mengandung target. Ini menghasilkan performa yang artifisial tinggi yang tidak dapat digeneralisasi.

Pipeline ML & Validasi

Apa keuntungan utama menggunakan Pipeline scikit-learn dibandingkan menerapkan transformasi secara manual?

Jawaban

Method mana yang harus dipanggil pada Pipeline untuk melatih semua langkah dan membuat prediksi?

Jawaban

Apa itu data leakage dalam konteks machine learning?

Jawaban

Apa peran ColumnTransformer di scikit-learn?

Apa itu K-Fold cross-validation?

Topik wawancara Data Science & ML lainnya

Dasar-dasar Python

Pemrograman Berorientasi Objek Python

Struktur Data Python

Dasar-Dasar Git

Dasar-dasar SQL

Dasar-Dasar NumPy

Dasar-dasar Pandas

Jupyter & Google Colab

SQL Joins & Kueri Lanjutan

Pandas Lanjutan

Visualisasi dengan Matplotlib & Seaborn

Visualisasi Interaktif dengan Plotly

Statistik Deskriptif

Statistik Inferensial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Terbimbing: Regresi

ML Terbimbing: Klasifikasi

Pohon Keputusan & Ensemble

ML Tanpa Pengawasan

Deret Waktu & Peramalan

Dasar-Dasar Deep Learning

TensorFlow & Keras

CNN dan klasifikasi gambar

RNN & Sekuens

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps dan Deployment

Kuasai Data Science & ML untuk wawancara berikutnya