Data Science & ML

Feature Engineering

Encoding kategorikal, scaling, normalisasi, feature selection, pembuatan feature, pipelines

22 pertanyaan wawancaraยท
Mid-Level
1

Tipe encoding apa yang harus digunakan untuk variabel kategorikal nominal dengan sedikit kategori berbeda (kurang dari 10)?

Jawaban

One-Hot Encoding ideal untuk variabel nominal dengan sedikit kategori karena membuat kolom biner untuk setiap kategori tanpa memperkenalkan urutan buatan. Berbeda dengan Label Encoding yang memberikan angka (0, 1, 2...), One-Hot mencegah model menginterpretasikan hubungan ordinal yang tidak ada antar kategori.

2

Apa perbedaan utama antara StandardScaler dan MinMaxScaler?

Jawaban

StandardScaler memusatkan data di sekitar 0 dengan standar deviasi 1 (z-score), sedangkan MinMaxScaler menormalisasi data dalam rentang tetap, biasanya [0, 1]. StandardScaler kurang sensitif terhadap outlier karena menggunakan mean dan standar deviasi, sementara MinMaxScaler dapat sangat dipengaruhi oleh nilai ekstrem.

3

Scaler mana yang harus dipilih ketika data mengandung outlier yang signifikan?

Jawaban

RobustScaler menggunakan median dan rentang interkuartil (IQR) sebagai pengganti mean dan standar deviasi, membuatnya robust terhadap outlier. Nilai ekstrem tidak secara signifikan mempengaruhi statistik ini, berbeda dengan StandardScaler atau MinMaxScaler yang dapat sangat bias oleh outlier.

4

Apa itu Label Encoding dan kapan tepat untuk menggunakannya?

5

Masalah apa yang dapat ditimbulkan Target Encoding dan bagaimana cara menghindarinya?

+19 pertanyaan wawancara

Kuasai Data Science & ML untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis