
Feature Engineering
Encoding kategorikal, scaling, normalisasi, feature selection, pembuatan feature, pipelines
1Tipe encoding apa yang harus digunakan untuk variabel kategorikal nominal dengan sedikit kategori berbeda (kurang dari 10)?
Tipe encoding apa yang harus digunakan untuk variabel kategorikal nominal dengan sedikit kategori berbeda (kurang dari 10)?
Jawaban
One-Hot Encoding ideal untuk variabel nominal dengan sedikit kategori karena membuat kolom biner untuk setiap kategori tanpa memperkenalkan urutan buatan. Berbeda dengan Label Encoding yang memberikan angka (0, 1, 2...), One-Hot mencegah model menginterpretasikan hubungan ordinal yang tidak ada antar kategori.
2Apa perbedaan utama antara StandardScaler dan MinMaxScaler?
Apa perbedaan utama antara StandardScaler dan MinMaxScaler?
Jawaban
StandardScaler memusatkan data di sekitar 0 dengan standar deviasi 1 (z-score), sedangkan MinMaxScaler menormalisasi data dalam rentang tetap, biasanya [0, 1]. StandardScaler kurang sensitif terhadap outlier karena menggunakan mean dan standar deviasi, sementara MinMaxScaler dapat sangat dipengaruhi oleh nilai ekstrem.
3Scaler mana yang harus dipilih ketika data mengandung outlier yang signifikan?
Scaler mana yang harus dipilih ketika data mengandung outlier yang signifikan?
Jawaban
RobustScaler menggunakan median dan rentang interkuartil (IQR) sebagai pengganti mean dan standar deviasi, membuatnya robust terhadap outlier. Nilai ekstrem tidak secara signifikan mempengaruhi statistik ini, berbeda dengan StandardScaler atau MinMaxScaler yang dapat sangat bias oleh outlier.
Apa itu Label Encoding dan kapan tepat untuk menggunakannya?
Masalah apa yang dapat ditimbulkan Target Encoding dan bagaimana cara menghindarinya?
+19 pertanyaan wawancara
Topik wawancara Data Science & ML lainnya
Dasar-dasar Python
Pemrograman Berorientasi Objek Python
Struktur Data Python
Dasar-Dasar Git
Dasar-dasar SQL
Dasar-Dasar NumPy
Dasar-dasar Pandas
Jupyter & Google Colab
SQL Joins & Kueri Lanjutan
Pandas Lanjutan
Visualisasi dengan Matplotlib & Seaborn
Visualisasi Interaktif dengan Plotly
Statistik Deskriptif
Statistik Inferensial
Web Scraping
BigQuery & Cloud Data
ML Terbimbing: Regresi
ML Terbimbing: Klasifikasi
Pohon Keputusan & Ensemble
ML Tanpa Pengawasan
Pipeline ML & Validasi
Deret Waktu & Peramalan
Dasar-Dasar Deep Learning
TensorFlow & Keras
CNN dan klasifikasi gambar
RNN & Sekuens
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps dan Deployment
Kuasai Data Science & ML untuk wawancara berikutnya
Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.
Mulai gratis