Question 1

Welk type encoding moet worden gebruikt voor een nominale categorische variabele met weinig verschillende categorieën (minder dan 10)?

Accepted Answer

One-Hot Encoding is ideaal voor nominale variabelen met weinig categorieën omdat het een binaire kolom maakt voor elke categorie zonder kunstmatige ordening te introduceren. In tegenstelling tot Label Encoding dat getallen (0, 1, 2...) toewijst, voorkomt One-Hot dat het model een niet-bestaande ordinale relatie tussen categorieën interpreteert.

Question 2

Wat is het belangrijkste verschil tussen StandardScaler en MinMaxScaler?

Accepted Answer

StandardScaler centreert data rond 0 met een standaarddeviatie van 1 (z-score), terwijl MinMaxScaler data normaliseert binnen een vast bereik, meestal [0, 1]. StandardScaler is minder gevoelig voor outliers omdat het gemiddelde en standaarddeviatie gebruikt, terwijl MinMaxScaler sterk beïnvloed kan worden door extreme waarden.

Question 3

Welke scaler heeft de voorkeur wanneer de data significante outliers bevat?

Accepted Answer

RobustScaler gebruikt mediaan en interkwartielafstand (IQR) in plaats van gemiddelde en standaarddeviatie, waardoor het robuust is tegen outliers. Extreme waarden beïnvloeden deze statistieken niet significant, in tegenstelling tot StandardScaler of MinMaxScaler die sterk beïnvloed kunnen worden door outliers.

Feature Engineering

Welk type encoding moet worden gebruikt voor een nominale categorische variabele met weinig verschillende categorieën (minder dan 10)?

Antwoord

Wat is het belangrijkste verschil tussen StandardScaler en MinMaxScaler?

Antwoord

Welke scaler heeft de voorkeur wanneer de data significante outliers bevat?

Antwoord

Wat is Label Encoding en wanneer is het gepast om het te gebruiken?

Welk probleem kan Target Encoding veroorzaken en hoe vermijd je het?

Andere Data Science & ML-sollicitatieonderwerpen

Python-basisbeginselen

Python Objectgeoriënteerd Programmeren

Python-datastructuren

Git-Fundamenten

SQL-basisbeginselen

NumPy-grondbeginselen

Pandas-basis

Jupyter & Google Colab

SQL Joins & geavanceerde queries

Geavanceerd Pandas

Visualisatie met Matplotlib & Seaborn

Interactieve visualisaties met Plotly

Beschrijvende statistiek

Inferentiële statistiek

Web Scraping

BigQuery & Cloud Data

Supervised ML: Regressie

Supervised ML: Classificatie

Beslissingsbomen & Ensembles

Ongesuperviseerd ML

ML Pipelines & Validatie

Tijdreeksen & Voorspelling

Fundamenten van Deep Learning

TensorFlow & Keras

CNN en beeldclassificatie

RNN & Reeksen

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps en Deployment

Beheers Data Science & ML voor je volgende gesprek