
Дерева рішень та ансамблі
Decision Trees, Random Forest, Gradient Boosting, XGBoost, налаштування гіперпараметрів, feature importance
1Що таке decision tree у Machine Learning?
Що таке decision tree у Machine Learning?
Відповідь
Decision tree — це модель Machine Learning, яка робить прогнози, розділяючи дані за ієрархічними правилами рішень. Кожен внутрішній вузол представляє тест на feature, кожна гілка представляє результат тесту, а кожен лист представляє остаточний прогноз. Ця модель інтуїтивна та легко інтерпретована, що робить її чудовим вибором для розуміння факторів, що впливають на рішення.
2Який критерій використовується за замовчуванням у scikit-learn для вимірювання якості split у класифікаційному дереві?
Який критерій використовується за замовчуванням у scikit-learn для вимірювання якості split у класифікаційному дереві?
Відповідь
Індекс Джині є стандартним критерієм у scikit-learn для класифікаційних дерев. Він вимірює нечистоту вузла, обчислюючи ймовірність того, що елемент буде неправильно класифікований, якщо його випадково класифікувати відповідно до розподілу класів. Джині, що дорівнює 0, означає чистий вузол (один клас), а вищий Джині вказує на більшу різноманітність класів.
3У чому головна різниця між індексом Джині та ентропією як критеріями split?
У чому головна різниця між індексом Джині та ентропією як критеріями split?
Відповідь
Індекс Джині та ентропія зазвичай створюють дуже схожі дерева, але Джині трохи швидший для обчислення, оскільки не вимагає логарифмічних обчислень. Ентропія, заснована на теорії інформації, іноді може створювати дещо більш збалансовані split'и. На практиці вибір між ними рідко має значний вплив на продуктивність моделі.
Що таке pruning у контексті decision trees?
Який гіперпараметр контролює максимальну глибину decision tree у scikit-learn?
+21 питань зі співбесід
Інші теми співбесід Data Science & ML
Основи Python
Об'єктно-орієнтоване програмування Python
Структури даних Python
Основи Git
Основи SQL
Основи NumPy
Основи Pandas
Jupyter & Google Colab
SQL Joins та розширені запити
Просунутий Pandas
Візуалізація з Matplotlib & Seaborn
Інтерактивні візуалізації з Plotly
Описова статистика
Інференційна статистика
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Кероване ML: Регресія
Кероване ML: Класифікація
Некероване ML
ML Pipelines та валідація
Часові ряди та прогнозування
Основи Deep Learning
TensorFlow & Keras
CNN та класифікація зображень
RNN та послідовності
Transformers та Attention
NLP та Hugging Face
GenAI та LangChain
MLOps та розгортання
Опануй Data Science & ML для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно