Data Science & ML

ML Không Giám Sát

K-Means, hierarchical clustering, DBSCAN, PCA, t-SNE, UMAP, silhouette score, elbow method

22 câu hỏi phỏng vấn·
Mid-Level
1

Sự khác biệt chính giữa học có giám sát và học không giám sát là gì?

Câu trả lời

Học không giám sát làm việc với dữ liệu không có nhãn, tìm cách khám phá các cấu trúc hoặc mẫu ẩn mà không có biến mục tiêu được xác định trước. Không giống như học có giám sát dự đoán một giá trị đã biết (nhãn), học không giám sát khám phá dữ liệu để tìm các nhóm tự nhiên, giảm chiều hoặc phát hiện bất thường. Các thuật toán như K-Means, PCA hoặc DBSCAN là những ví dụ điển hình của học không giám sát.

2

Thuật toán K-Means hoạt động như thế nào để phân vùng dữ liệu?

Câu trả lời

K-Means là một thuật toán lặp phân chia dữ liệu thành K cụm. Nó khởi tạo K centroid ngẫu nhiên, sau đó luân phiên giữa hai bước: gán mỗi điểm cho centroid gần nhất (bước gán) và tính toán lại vị trí centroid là trung bình của các điểm được gán (bước cập nhật). Thuật toán hội tụ khi các gán không còn thay đổi hoặc sau số lần lặp tối đa.

3

Phương pháp nào nên được sử dụng để xác định số cụm K tối ưu trong K-Means?

Câu trả lời

Phương pháp elbow vẽ inertia (tổng khoảng cách bình phương giữa mỗi điểm và centroid của nó) so với K. Điểm mà đường cong tạo thành khuỷu chỉ ra K tối ưu, vì vượt quá đó việc thêm cụm không còn cải thiện inertia đáng kể. Phương pháp này được bổ sung bởi silhouette score để xác thực chất lượng cụm.

4

Silhouette score đo lường điều gì trong bối cảnh clustering?

5

Phạm vi giá trị của silhouette score là gì và cách diễn giải điểm 0.7?

+19 câu hỏi phỏng vấn

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí