Data Analytics

Data Cleaning - Làm sạch dữ liệu

Giá trị thiếu, trùng lặp, outlier, quy tắc nghiệp vụ, chuyển đổi, chất lượng dữ liệu

20 câu hỏi phỏng vấn·
Junior
1

Giá trị thiếu (missing value) trong tập dữ liệu là gì?

Câu trả lời

Giá trị thiếu đại diện cho dữ liệu vắng mặt hoặc chưa được điền vào một trường. Nó có thể xuất hiện dưới dạng ô trống, NULL trong cơ sở dữ liệu hoặc NaN trong DataFrame. Xác định các giá trị thiếu là bước đầu tiên của việc làm sạch dữ liệu vì chúng có thể làm sai lệch các phân tích thống kê và phép tổng hợp.

2

Sự khác biệt giữa giá trị NULL và chuỗi rỗng trong cơ sở dữ liệu là gì?

Câu trả lời

NULL có nghĩa là giá trị không xác định hoặc không tồn tại, trong khi chuỗi rỗng là một giá trị đã biết tình cờ trống. Sự phân biệt này là cơ bản trong SQL vì NULL không thể được so sánh với toán tử = (phải sử dụng IS NULL), trong khi chuỗi rỗng có thể được so sánh bình thường với = ''.

3

Bản trùng lặp (duplicate) trong tập dữ liệu là gì?

Câu trả lời

Bản trùng lặp là một bản ghi xuất hiện nhiều hơn một lần trong tập dữ liệu, hoặc chính xác (tất cả các cột giống nhau) hoặc một phần (một số cột khóa giống nhau). Các bản trùng lặp làm sai lệch số đếm, tổng và trung bình. Việc phát hiện chúng thường dựa trên việc xác định các cột khóa cần phải duy nhất.

4

Kỹ thuật nào cho phép phát hiện các bản trùng lặp chính xác trong SQL?

5

Outlier (giá trị ngoại lai) trong tập dữ liệu là gì?

+17 câu hỏi phỏng vấn

Nắm vững Data Analytics cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí