
Data Cleaning - Làm sạch dữ liệu
Giá trị thiếu, trùng lặp, outlier, quy tắc nghiệp vụ, chuyển đổi, chất lượng dữ liệu
1Giá trị thiếu (missing value) trong tập dữ liệu là gì?
Giá trị thiếu (missing value) trong tập dữ liệu là gì?
Câu trả lời
Giá trị thiếu đại diện cho dữ liệu vắng mặt hoặc chưa được điền vào một trường. Nó có thể xuất hiện dưới dạng ô trống, NULL trong cơ sở dữ liệu hoặc NaN trong DataFrame. Xác định các giá trị thiếu là bước đầu tiên của việc làm sạch dữ liệu vì chúng có thể làm sai lệch các phân tích thống kê và phép tổng hợp.
2Sự khác biệt giữa giá trị NULL và chuỗi rỗng trong cơ sở dữ liệu là gì?
Sự khác biệt giữa giá trị NULL và chuỗi rỗng trong cơ sở dữ liệu là gì?
Câu trả lời
NULL có nghĩa là giá trị không xác định hoặc không tồn tại, trong khi chuỗi rỗng là một giá trị đã biết tình cờ trống. Sự phân biệt này là cơ bản trong SQL vì NULL không thể được so sánh với toán tử = (phải sử dụng IS NULL), trong khi chuỗi rỗng có thể được so sánh bình thường với = ''.
3Bản trùng lặp (duplicate) trong tập dữ liệu là gì?
Bản trùng lặp (duplicate) trong tập dữ liệu là gì?
Câu trả lời
Bản trùng lặp là một bản ghi xuất hiện nhiều hơn một lần trong tập dữ liệu, hoặc chính xác (tất cả các cột giống nhau) hoặc một phần (một số cột khóa giống nhau). Các bản trùng lặp làm sai lệch số đếm, tổng và trung bình. Việc phát hiện chúng thường dựa trên việc xác định các cột khóa cần phải duy nhất.
Kỹ thuật nào cho phép phát hiện các bản trùng lặp chính xác trong SQL?
Outlier (giá trị ngoại lai) trong tập dữ liệu là gì?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Analytics khác
Google Sheets - Kiến thức cơ bản
Google Sheets - Công thức nâng cao
SQL - Cơ bản
SQL - Tổng hợp và nhóm
SQL - Joins
BigQuery - Kiến thức cơ bản
KPI và chỉ số kinh doanh
Thống kê mô tả
Zapier và tự động hóa No-Code
Nguyên tắc trực quan hóa dữ liệu
Python & Pandas - Cơ bản
Google Sheets - Dashboard tự động
SQL - Truy vấn con và CTE
SQL - Window Functions
BigQuery - Tính năng nâng cao
Data Modeling
Phân tích Funnel và Chuyển đổi
Phân tích Cohort và Retention
Google Tag Manager và Tracking
API và Webhook
dbt - Kiến thức cơ bản
AB Testing và Thống kê Ứng dụng
Looker Studio (Google Data Studio)
Power BI - Kiến Thức Cơ Bản
SQL - Truy Vấn Phân Tích Nâng Cao
dbt - Tính năng nâng cao
Power BI - DAX và Dashboard Nâng Cao
Python Analytics - Phân tích nâng cao và ML
Nắm vững Data Analytics cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí