Question 1

Wat is het belangrijkste verschil tussen supervised en unsupervised learning?

Accepted Answer

Unsupervised learning werkt met ongelabelde data en probeert verborgen structuren of patronen te ontdekken zonder een vooraf gedefinieerde doelvariabele. In tegenstelling tot supervised learning dat een bekende waarde (label) voorspelt, verkent unsupervised learning data om natuurlijke groepen te vinden, dimensionaliteit te verminderen of anomalieën te detecteren. Algoritmes zoals K-Means, PCA of DBSCAN zijn typische voorbeelden van unsupervised learning.

Question 2

Hoe werkt het K-Means algoritme om data te partitioneren?

Accepted Answer

K-Means is een iteratief algoritme dat data partitioneert in K clusters. Het initialiseert K centroids willekeurig en wisselt af tussen twee stappen: elk punt toewijzen aan de dichtstbijzijnde centroid (toewijzingsstap) en centroidposities herberekenen als het gemiddelde van toegewezen punten (updatestap). Het algoritme convergeert wanneer toewijzingen niet meer veranderen of na een maximaal aantal iteraties.

Question 3

Welke methode moet worden gebruikt om het optimale aantal clusters K in K-Means te bepalen?

Accepted Answer

De elbow method plot de inertia (som van kwadratische afstanden tussen elk punt en zijn centroid) tegen K. Het punt waar de curve een elleboog vormt, geeft de optimale K aan, omdat verder toevoegen van clusters de inertia niet meer significant verbetert. Deze methode wordt aangevuld met silhouette score om de clusterkwaliteit te valideren.

Ongesuperviseerd ML

Wat is het belangrijkste verschil tussen supervised en unsupervised learning?

Antwoord

Hoe werkt het K-Means algoritme om data te partitioneren?

Antwoord

Welke methode moet worden gebruikt om het optimale aantal clusters K in K-Means te bepalen?

Antwoord

Wat meet de silhouette score in de context van clustering?

Wat is het waardenbereik van de silhouette score en hoe een score van 0.7 te interpreteren?

Andere Data Science & ML-sollicitatieonderwerpen

Python-basisbeginselen

Python Objectgeoriënteerd Programmeren

Python-datastructuren

Git-Fundamenten

SQL-basisbeginselen

NumPy-grondbeginselen

Pandas-basis

Jupyter & Google Colab

SQL Joins & geavanceerde queries

Geavanceerd Pandas

Visualisatie met Matplotlib & Seaborn

Interactieve visualisaties met Plotly

Beschrijvende statistiek

Inferentiële statistiek

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Supervised ML: Regressie

Supervised ML: Classificatie

Beslissingsbomen & Ensembles

ML Pipelines & Validatie

Tijdreeksen & Voorspelling

Fundamenten van Deep Learning

TensorFlow & Keras

CNN en beeldclassificatie

RNN & Reeksen

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps en Deployment

Beheers Data Science & ML voor je volgende gesprek