Data Science & ML

Feature Engineering

Categorische encoding, scaling, normalisatie, feature selection, feature-creatie, pipelines

22 gespreksvragen·
Mid-Level
1

Welk type encoding moet worden gebruikt voor een nominale categorische variabele met weinig verschillende categorieën (minder dan 10)?

Antwoord

One-Hot Encoding is ideaal voor nominale variabelen met weinig categorieën omdat het een binaire kolom maakt voor elke categorie zonder kunstmatige ordening te introduceren. In tegenstelling tot Label Encoding dat getallen (0, 1, 2...) toewijst, voorkomt One-Hot dat het model een niet-bestaande ordinale relatie tussen categorieën interpreteert.

2

Wat is het belangrijkste verschil tussen StandardScaler en MinMaxScaler?

Antwoord

StandardScaler centreert data rond 0 met een standaarddeviatie van 1 (z-score), terwijl MinMaxScaler data normaliseert binnen een vast bereik, meestal [0, 1]. StandardScaler is minder gevoelig voor outliers omdat het gemiddelde en standaarddeviatie gebruikt, terwijl MinMaxScaler sterk beïnvloed kan worden door extreme waarden.

3

Welke scaler heeft de voorkeur wanneer de data significante outliers bevat?

Antwoord

RobustScaler gebruikt mediaan en interkwartielafstand (IQR) in plaats van gemiddelde en standaarddeviatie, waardoor het robuust is tegen outliers. Extreme waarden beïnvloeden deze statistieken niet significant, in tegenstelling tot StandardScaler of MinMaxScaler die sterk beïnvloed kunnen worden door outliers.

4

Wat is Label Encoding en wanneer is het gepast om het te gebruiken?

5

Welk probleem kan Target Encoding veroorzaken en hoe vermijd je het?

+19 gespreksvragen

Beheers Data Science & ML voor je volgende gesprek

Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.

Begin gratis