Question 1

У чому головна різниця між керованим і некерованим навчанням?

Accepted Answer

Некероване навчання працює з немаркованими даними, прагнучи виявити приховані структури або патерни без попередньо визначеної цільової змінної. На відміну від керованого навчання, яке прогнозує відоме значення (мітку), некероване навчання досліджує дані, щоб знайти природні групи, зменшити розмірність або виявити аномалії. Такі алгоритми, як K-Means, PCA або DBSCAN, є типовими прикладами некерованого навчання.

Question 2

Як працює алгоритм K-Means для розбиття даних?

Accepted Answer

K-Means — це ітеративний алгоритм, який розбиває дані на K кластерів. Він випадково ініціалізує K центроїдів, потім чергує два кроки: призначення кожної точки найближчому центроїду (крок призначення) і перерахунок позицій центроїдів як середнього призначених точок (крок оновлення). Алгоритм сходиться, коли призначення більше не змінюються або після максимальної кількості ітерацій.

Question 3

Який метод використовувати для визначення оптимальної кількості кластерів K у K-Means?

Accepted Answer

Метод ліктя (elbow method) будує графік інерції (сума квадратів відстаней між кожною точкою та її центроїдом) залежно від K. Точка, де крива утворює лікоть, вказує на оптимальне K, оскільки за нею додавання кластерів більше не покращує інерцію суттєво. Цей метод доповнюється silhouette score для валідації якості кластерів.

Некероване ML

У чому головна різниця між керованим і некерованим навчанням?

Відповідь

Як працює алгоритм K-Means для розбиття даних?

Відповідь

Який метод використовувати для визначення оптимальної кількості кластерів K у K-Means?

Відповідь

Що вимірює silhouette score у контексті кластеризації?

Який діапазон значень silhouette score та як інтерпретувати оцінку 0.7?

Інші теми співбесід Data Science & ML

Основи Python

Об'єктно-орієнтоване програмування Python

Структури даних Python

Основи Git

Основи SQL

Основи NumPy

Основи Pandas

Jupyter & Google Colab

SQL Joins та розширені запити

Просунутий Pandas

Візуалізація з Matplotlib & Seaborn

Інтерактивні візуалізації з Plotly

Описова статистика

Інференційна статистика

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Кероване ML: Регресія

Кероване ML: Класифікація

Дерева рішень та ансамблі

ML Pipelines та валідація

Часові ряди та прогнозування

Основи Deep Learning

TensorFlow & Keras

CNN та класифікація зображень

RNN та послідовності

Transformers та Attention

NLP та Hugging Face

GenAI та LangChain

MLOps та розгортання

Опануй Data Science & ML для наступної співбесіди