Question 1

Що таке decision tree у Machine Learning?

Accepted Answer

Decision tree — це модель Machine Learning, яка робить прогнози, розділяючи дані за ієрархічними правилами рішень. Кожен внутрішній вузол представляє тест на feature, кожна гілка представляє результат тесту, а кожен лист представляє остаточний прогноз. Ця модель інтуїтивна та легко інтерпретована, що робить її чудовим вибором для розуміння факторів, що впливають на рішення.

Question 2

Який критерій використовується за замовчуванням у scikit-learn для вимірювання якості split у класифікаційному дереві?

Accepted Answer

Індекс Джині є стандартним критерієм у scikit-learn для класифікаційних дерев. Він вимірює нечистоту вузла, обчислюючи ймовірність того, що елемент буде неправильно класифікований, якщо його випадково класифікувати відповідно до розподілу класів. Джині, що дорівнює 0, означає чистий вузол (один клас), а вищий Джині вказує на більшу різноманітність класів.

Question 3

У чому головна різниця між індексом Джині та ентропією як критеріями split?

Accepted Answer

Індекс Джині та ентропія зазвичай створюють дуже схожі дерева, але Джині трохи швидший для обчислення, оскільки не вимагає логарифмічних обчислень. Ентропія, заснована на теорії інформації, іноді може створювати дещо більш збалансовані split'и. На практиці вибір між ними рідко має значний вплив на продуктивність моделі.

Дерева рішень та ансамблі

Що таке decision tree у Machine Learning?

Відповідь

Який критерій використовується за замовчуванням у scikit-learn для вимірювання якості split у класифікаційному дереві?

Відповідь

У чому головна різниця між індексом Джині та ентропією як критеріями split?

Відповідь

Що таке pruning у контексті decision trees?

Який гіперпараметр контролює максимальну глибину decision tree у scikit-learn?

Інші теми співбесід Data Science & ML

Основи Python

Об'єктно-орієнтоване програмування Python

Структури даних Python

Основи Git

Основи SQL

Основи NumPy

Основи Pandas

Jupyter & Google Colab

SQL Joins та розширені запити

Просунутий Pandas

Візуалізація з Matplotlib & Seaborn

Інтерактивні візуалізації з Plotly

Описова статистика

Інференційна статистика

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Кероване ML: Регресія

Кероване ML: Класифікація

Некероване ML

ML Pipelines та валідація

Часові ряди та прогнозування

Основи Deep Learning

TensorFlow & Keras

CNN та класифікація зображень

RNN та послідовності

Transformers та Attention

NLP та Hugging Face

GenAI та LangChain

MLOps та розгортання

Опануй Data Science & ML для наступної співбесіди