Question 1

Czym jest decision tree w Machine Learning?

Accepted Answer

Decision tree to model Machine Learning, który dokonuje predykcji poprzez podział danych według hierarchicznych reguł decyzyjnych. Każdy węzeł wewnętrzny reprezentuje test na feature, każda gałąź reprezentuje wynik testu, a każdy liść reprezentuje końcową predykcję. Ten model jest intuicyjny i łatwo interpretowalny, co czyni go doskonałym wyborem do zrozumienia czynników wpływających na decyzję.

Question 2

Jakie kryterium jest używane domyślnie w scikit-learn do pomiaru jakości splitu w drzewie klasyfikacji?

Accepted Answer

Indeks Gini jest domyślnym kryterium w scikit-learn dla drzew klasyfikacji. Mierzy nieczystość węzła, obliczając prawdopodobieństwo, że element zostałby źle sklasyfikowany, gdyby został losowo sklasyfikowany według rozkładu klas. Gini równy 0 oznacza czysty węzeł (pojedyncza klasa), podczas gdy wyższy Gini wskazuje na większą różnorodność klas.

Question 3

Jaka jest główna różnica między indeksem Gini a entropią jako kryteriami splitu?

Accepted Answer

Indeks Gini i entropia zazwyczaj tworzą bardzo podobne drzewa, ale Gini jest nieco szybszy do obliczenia, ponieważ nie wymaga obliczeń logarytmicznych. Entropia, oparta na teorii informacji, może czasem tworzyć nieco bardziej zrównoważone splity. W praktyce wybór między nimi rzadko ma znaczący wpływ na wydajność modelu.

Drzewa Decyzyjne i Ensembles

Czym jest decision tree w Machine Learning?

Odpowiedź

Jakie kryterium jest używane domyślnie w scikit-learn do pomiaru jakości splitu w drzewie klasyfikacji?

Odpowiedź

Jaka jest główna różnica między indeksem Gini a entropią jako kryteriami splitu?

Odpowiedź

Czym jest pruning w kontekście decision trees?

Który hiperparametr kontroluje maksymalną głębokość decision tree w scikit-learn?

Inne tematy rekrutacyjne Data Science & ML

Podstawy Pythona

Programowanie Obiektowe w Pythonie

Struktury danych Python

Podstawy Git

Podstawy SQL

Podstawy NumPy

Podstawy Pandas

Jupyter & Google Colab

SQL Joins i zaawansowane zapytania

Zaawansowany Pandas

Wizualizacja z Matplotlib & Seaborn

Interaktywne wizualizacje z Plotly

Statystyka opisowa

Statystyka inferencyjna

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Uczenie nadzorowane: Regresja

Uczenie nadzorowane: Klasyfikacja

ML Nienadzorowane

Pipeline'y ML i walidacja

Szeregi czasowe i prognozowanie

Podstawy Deep Learning

TensorFlow & Keras

CNN i klasyfikacja obrazów

RNN i Sekwencje

Transformers i Attention

NLP i Hugging Face

GenAI i LangChain

MLOps i Wdrożenie

Opanuj Data Science & ML na następną rozmowę