Question 1

Wat is een decision tree in Machine Learning?

Accepted Answer

Een decision tree is een Machine Learning-model dat voorspellingen maakt door data te splitsen volgens hiërarchische beslisregels. Elke interne node vertegenwoordigt een test op een feature, elke tak vertegenwoordigt het resultaat van de test, en elk blad vertegenwoordigt een uiteindelijke voorspelling. Dit model is intuïtief en gemakkelijk interpreteerbaar, wat het een uitstekende keuze maakt om factoren die een beslissing beïnvloeden te begrijpen.

Question 2

Welk criterium wordt standaard gebruikt in scikit-learn om de kwaliteit van een split in een classificatieboom te meten?

Accepted Answer

De Gini-index is het standaardcriterium in scikit-learn voor classificatiebomen. Het meet de onzuiverheid van een node door de waarschijnlijkheid te berekenen dat een element verkeerd zou worden geclassificeerd als het willekeurig wordt geclassificeerd volgens de klassendistributie. Een Gini van 0 betekent een zuivere node (enkele klasse), terwijl een hogere Gini wijst op grotere klassendiversiteit.

Question 3

Wat is het belangrijkste verschil tussen Gini-index en entropie als splitcriteria?

Accepted Answer

Gini-index en entropie produceren over het algemeen zeer vergelijkbare bomen, maar Gini is iets sneller te berekenen omdat het geen logaritmische berekening vereist. Entropie, gebaseerd op informatietheorie, kan soms iets evenwichtigere splits creëren. In de praktijk heeft de keuze tussen beide zelden een significante impact op modelprestaties.

Beslissingsbomen & Ensembles

Wat is een decision tree in Machine Learning?

Antwoord

Welk criterium wordt standaard gebruikt in scikit-learn om de kwaliteit van een split in een classificatieboom te meten?

Antwoord

Wat is het belangrijkste verschil tussen Gini-index en entropie als splitcriteria?

Antwoord

Wat is pruning in de context van decision trees?

Welke hyperparameter regelt de maximale diepte van een decision tree in scikit-learn?

Andere Data Science & ML-sollicitatieonderwerpen

Python-basisbeginselen

Python Objectgeoriënteerd Programmeren

Python-datastructuren

Git-Fundamenten

SQL-basisbeginselen

NumPy-grondbeginselen

Pandas-basis

Jupyter & Google Colab

SQL Joins & geavanceerde queries

Geavanceerd Pandas

Visualisatie met Matplotlib & Seaborn

Interactieve visualisaties met Plotly

Beschrijvende statistiek

Inferentiële statistiek

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Supervised ML: Regressie

Supervised ML: Classificatie

Ongesuperviseerd ML

ML Pipelines & Validatie

Tijdreeksen & Voorspelling

Fundamenten van Deep Learning

TensorFlow & Keras

CNN en beeldclassificatie

RNN & Reeksen

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps en Deployment

Beheers Data Science & ML voor je volgende gesprek