
Feature Engineering
Categorische encoding, scaling, normalisatie, feature selection, feature-creatie, pipelines
1Welk type encoding moet worden gebruikt voor een nominale categorische variabele met weinig verschillende categorieën (minder dan 10)?
Welk type encoding moet worden gebruikt voor een nominale categorische variabele met weinig verschillende categorieën (minder dan 10)?
Antwoord
One-Hot Encoding is ideaal voor nominale variabelen met weinig categorieën omdat het een binaire kolom maakt voor elke categorie zonder kunstmatige ordening te introduceren. In tegenstelling tot Label Encoding dat getallen (0, 1, 2...) toewijst, voorkomt One-Hot dat het model een niet-bestaande ordinale relatie tussen categorieën interpreteert.
2Wat is het belangrijkste verschil tussen StandardScaler en MinMaxScaler?
Wat is het belangrijkste verschil tussen StandardScaler en MinMaxScaler?
Antwoord
StandardScaler centreert data rond 0 met een standaarddeviatie van 1 (z-score), terwijl MinMaxScaler data normaliseert binnen een vast bereik, meestal [0, 1]. StandardScaler is minder gevoelig voor outliers omdat het gemiddelde en standaarddeviatie gebruikt, terwijl MinMaxScaler sterk beïnvloed kan worden door extreme waarden.
3Welke scaler heeft de voorkeur wanneer de data significante outliers bevat?
Welke scaler heeft de voorkeur wanneer de data significante outliers bevat?
Antwoord
RobustScaler gebruikt mediaan en interkwartielafstand (IQR) in plaats van gemiddelde en standaarddeviatie, waardoor het robuust is tegen outliers. Extreme waarden beïnvloeden deze statistieken niet significant, in tegenstelling tot StandardScaler of MinMaxScaler die sterk beïnvloed kunnen worden door outliers.
Wat is Label Encoding en wanneer is het gepast om het te gebruiken?
Welk probleem kan Target Encoding veroorzaken en hoe vermijd je het?
+19 gespreksvragen
Andere Data Science & ML-sollicitatieonderwerpen
Python-basisbeginselen
Python Objectgeoriënteerd Programmeren
Python-datastructuren
Git-Fundamenten
SQL-basisbeginselen
NumPy-grondbeginselen
Pandas-basis
Jupyter & Google Colab
SQL Joins & geavanceerde queries
Geavanceerd Pandas
Visualisatie met Matplotlib & Seaborn
Interactieve visualisaties met Plotly
Beschrijvende statistiek
Inferentiële statistiek
Web Scraping
BigQuery & Cloud Data
Supervised ML: Regressie
Supervised ML: Classificatie
Beslissingsbomen & Ensembles
Ongesuperviseerd ML
ML Pipelines & Validatie
Tijdreeksen & Voorspelling
Fundamenten van Deep Learning
TensorFlow & Keras
CNN en beeldclassificatie
RNN & Reeksen
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps en Deployment
Beheers Data Science & ML voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis