Question 1

Tipe encoding apa yang harus digunakan untuk variabel kategorikal nominal dengan sedikit kategori berbeda (kurang dari 10)?

Accepted Answer

One-Hot Encoding ideal untuk variabel nominal dengan sedikit kategori karena membuat kolom biner untuk setiap kategori tanpa memperkenalkan urutan buatan. Berbeda dengan Label Encoding yang memberikan angka (0, 1, 2...), One-Hot mencegah model menginterpretasikan hubungan ordinal yang tidak ada antar kategori.

Question 2

Apa perbedaan utama antara StandardScaler dan MinMaxScaler?

Accepted Answer

StandardScaler memusatkan data di sekitar 0 dengan standar deviasi 1 (z-score), sedangkan MinMaxScaler menormalisasi data dalam rentang tetap, biasanya [0, 1]. StandardScaler kurang sensitif terhadap outlier karena menggunakan mean dan standar deviasi, sementara MinMaxScaler dapat sangat dipengaruhi oleh nilai ekstrem.

Question 3

Scaler mana yang harus dipilih ketika data mengandung outlier yang signifikan?

Accepted Answer

RobustScaler menggunakan median dan rentang interkuartil (IQR) sebagai pengganti mean dan standar deviasi, membuatnya robust terhadap outlier. Nilai ekstrem tidak secara signifikan mempengaruhi statistik ini, berbeda dengan StandardScaler atau MinMaxScaler yang dapat sangat bias oleh outlier.

Feature Engineering

Tipe encoding apa yang harus digunakan untuk variabel kategorikal nominal dengan sedikit kategori berbeda (kurang dari 10)?

Jawaban

Apa perbedaan utama antara StandardScaler dan MinMaxScaler?

Jawaban

Scaler mana yang harus dipilih ketika data mengandung outlier yang signifikan?

Jawaban

Apa itu Label Encoding dan kapan tepat untuk menggunakannya?

Masalah apa yang dapat ditimbulkan Target Encoding dan bagaimana cara menghindarinya?

Topik wawancara Data Science & ML lainnya

Dasar-dasar Python

Pemrograman Berorientasi Objek Python

Struktur Data Python

Dasar-Dasar Git

Dasar-dasar SQL

Dasar-Dasar NumPy

Dasar-dasar Pandas

Jupyter & Google Colab

SQL Joins & Kueri Lanjutan

Pandas Lanjutan

Visualisasi dengan Matplotlib & Seaborn

Visualisasi Interaktif dengan Plotly

Statistik Deskriptif

Statistik Inferensial

Web Scraping

BigQuery & Cloud Data

ML Terbimbing: Regresi

ML Terbimbing: Klasifikasi

Pohon Keputusan & Ensemble

ML Tanpa Pengawasan

Pipeline ML & Validasi

Deret Waktu & Peramalan

Dasar-Dasar Deep Learning

TensorFlow & Keras

CNN dan klasifikasi gambar

RNN & Sekuens

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps dan Deployment

Kuasai Data Science & ML untuk wawancara berikutnya