
Thống kê mô tả
Trung bình, trung vị, độ lệch chuẩn, tứ phân vị, phân phối, tương quan, giá trị ngoại lai, độ lệch
1Số đo xu hướng trung tâm nào phù hợp nhất cho dữ liệu chứa giá trị cực đoan (outliers)?
Số đo xu hướng trung tâm nào phù hợp nhất cho dữ liệu chứa giá trị cực đoan (outliers)?
Câu trả lời
Trung vị là số đo xu hướng trung tâm bền vững nhất với các giá trị ngoại lai vì nó đại diện cho giá trị giữa của dữ liệu đã sắp xếp, không bị ảnh hưởng bởi các giá trị cực đoan. Khác với trung bình cộng tổng tất cả giá trị, trung vị chỉ xét đến vị trí. Ví dụ, đối với mức lương của một công ty có vài giám đốc được trả lương rất cao, trung vị thể hiện mức lương điển hình tốt hơn trung bình.
2Phương sai của một tập dữ liệu là gì?
Phương sai của một tập dữ liệu là gì?
Câu trả lời
Phương sai đo lường mức độ phân tán của dữ liệu quanh giá trị trung bình. Nó được tính là trung bình của bình phương các độ lệch so với trung bình. Bằng cách bình phương, ta luôn nhận được giá trị dương và khuếch đại tác động của các giá trị xa giá trị trung bình. Đơn vị của phương sai là bình phương của đơn vị dữ liệu gốc, đó là lý do chúng ta thường sử dụng độ lệch chuẩn (căn bậc hai của phương sai) để diễn giải độ phân tán theo đơn vị gốc.
3Mối quan hệ giữa độ lệch chuẩn và phương sai là gì?
Mối quan hệ giữa độ lệch chuẩn và phương sai là gì?
Câu trả lời
Độ lệch chuẩn là căn bậc hai của phương sai. Phép biến đổi này đưa số đo độ phân tán trở về đơn vị dữ liệu gốc, làm cho việc diễn giải dễ dàng hơn. Ví dụ, nếu dữ liệu tính bằng euro, phương sai sẽ tính bằng euro bình phương (khó diễn giải), trong khi độ lệch chuẩn sẽ tính bằng euro. Vì vậy, độ lệch chuẩn được ưa chuộng để truyền đạt độ phân tán dữ liệu một cách trực quan.
Tứ phân vị thứ nhất (Q1) của một phân phối đại diện cho điều gì?
Cách diễn giải hệ số tương quan Pearson bằng -0.85?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Science & ML khác
Cơ bản về Python
Lập trình Hướng đối tượng Python
Cấu trúc dữ liệu Python
Kiến Thức Cơ Bản về Git
Cơ bản về SQL
Kiến thức cơ bản về NumPy
Cơ bản về Pandas
Jupyter & Google Colab
SQL Joins & Truy vấn nâng cao
Pandas nâng cao
Trực quan hóa với Matplotlib & Seaborn
Trực quan hóa tương tác với Plotly
Thống kê suy luận
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Có Giám Sát: Hồi Quy
ML Có Giám Sát: Phân Loại
Cây Quyết định & Ensemble
ML Không Giám Sát
Pipeline ML & Xác thực
Chuỗi thời gian & Dự báo
Cơ Bản Về Deep Learning
TensorFlow & Keras
CNN và phân loại hình ảnh
RNN & Chuỗi
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps và Triển khai
Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí