Data Analytics

Data Cleaning - Pembersihan data

Nilai hilang, duplikat, outlier, aturan bisnis, transformasi, kualitas data

20 pertanyaan wawancaraยท
Junior
1

Apa itu missing value dalam sebuah dataset?

Jawaban

Missing value mewakili data yang tidak ada atau tidak diisi dalam sebuah field. Bisa muncul sebagai sel kosong, NULL di database, atau NaN di DataFrame. Mengidentifikasi missing value adalah langkah pertama dalam pembersihan data karena dapat mendistorsi analisis statistik dan agregasi.

2

Apa perbedaan antara nilai NULL dan string kosong dalam database?

Jawaban

NULL berarti nilainya tidak diketahui atau tidak ada, sedangkan string kosong adalah nilai yang diketahui yang kebetulan kosong. Perbedaan ini fundamental dalam SQL karena NULL tidak dapat dibandingkan dengan operator = (harus menggunakan IS NULL), sedangkan string kosong dapat dibandingkan secara normal dengan = ''.

3

Apa itu duplikat dalam sebuah dataset?

Jawaban

Duplikat adalah record yang muncul lebih dari sekali dalam dataset, baik secara persis (semua kolom identik) atau sebagian (kolom kunci tertentu identik). Duplikat mendistorsi hitungan, jumlah, dan rata-rata. Pendeteksiannya biasanya bergantung pada pengidentifikasian kolom kunci yang seharusnya unik.

4

Teknik apa yang memungkinkan mendeteksi duplikat persis di SQL?

5

Apa itu outlier (nilai pencilan) dalam sebuah dataset?

+17 pertanyaan wawancara

Kuasai Data Analytics untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis