Question 1

Sự khác biệt chính giữa học có giám sát và học không giám sát là gì?

Accepted Answer

Học không giám sát làm việc với dữ liệu không có nhãn, tìm cách khám phá các cấu trúc hoặc mẫu ẩn mà không có biến mục tiêu được xác định trước. Không giống như học có giám sát dự đoán một giá trị đã biết (nhãn), học không giám sát khám phá dữ liệu để tìm các nhóm tự nhiên, giảm chiều hoặc phát hiện bất thường. Các thuật toán như K-Means, PCA hoặc DBSCAN là những ví dụ điển hình của học không giám sát.

Question 2

Thuật toán K-Means hoạt động như thế nào để phân vùng dữ liệu?

Accepted Answer

K-Means là một thuật toán lặp phân chia dữ liệu thành K cụm. Nó khởi tạo K centroid ngẫu nhiên, sau đó luân phiên giữa hai bước: gán mỗi điểm cho centroid gần nhất (bước gán) và tính toán lại vị trí centroid là trung bình của các điểm được gán (bước cập nhật). Thuật toán hội tụ khi các gán không còn thay đổi hoặc sau số lần lặp tối đa.

Question 3

Phương pháp nào nên được sử dụng để xác định số cụm K tối ưu trong K-Means?

Accepted Answer

Phương pháp elbow vẽ inertia (tổng khoảng cách bình phương giữa mỗi điểm và centroid của nó) so với K. Điểm mà đường cong tạo thành khuỷu chỉ ra K tối ưu, vì vượt quá đó việc thêm cụm không còn cải thiện inertia đáng kể. Phương pháp này được bổ sung bởi silhouette score để xác thực chất lượng cụm.

ML Không Giám Sát

Sự khác biệt chính giữa học có giám sát và học không giám sát là gì?

Câu trả lời

Thuật toán K-Means hoạt động như thế nào để phân vùng dữ liệu?

Câu trả lời

Phương pháp nào nên được sử dụng để xác định số cụm K tối ưu trong K-Means?

Câu trả lời

Silhouette score đo lường điều gì trong bối cảnh clustering?

Phạm vi giá trị của silhouette score là gì và cách diễn giải điểm 0.7?

Các chủ đề phỏng vấn Data Science & ML khác

Cơ bản về Python

Lập trình Hướng đối tượng Python

Cấu trúc dữ liệu Python

Kiến Thức Cơ Bản về Git

Cơ bản về SQL

Kiến thức cơ bản về NumPy

Cơ bản về Pandas

Jupyter & Google Colab

SQL Joins & Truy vấn nâng cao

Pandas nâng cao

Trực quan hóa với Matplotlib & Seaborn

Trực quan hóa tương tác với Plotly

Thống kê mô tả

Thống kê suy luận

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Có Giám Sát: Hồi Quy

ML Có Giám Sát: Phân Loại

Cây Quyết định & Ensemble

Pipeline ML & Xác thực

Chuỗi thời gian & Dự báo

Cơ Bản Về Deep Learning

TensorFlow & Keras

CNN và phân loại hình ảnh

RNN & Chuỗi

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps và Triển khai

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo