Data Science & ML

ML Pipelines & Validatie

Scikit-learn pipelines, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, stratificatie

22 gespreksvragen·
Mid-Level
1

Wat is het belangrijkste voordeel van het gebruik van een scikit-learn Pipeline in plaats van handmatig transformaties toe te passen?

Antwoord

Een Pipeline zorgt ervoor dat dezelfde transformaties consistent worden toegepast op zowel trainings- als testdata. Het kapselt alle preprocessing- en modelleerstappen in één object, wat de code vereenvoudigt, data leakage voorkomt en het gemakkelijker maakt om het model in productie te deployen.

2

Welke methode moet worden aangeroepen op een Pipeline om alle stappen te trainen en een voorspelling te doen?

Antwoord

De fit_predict methode bestaat niet voor regressie- of classificatie-Pipelines. U moet eerst fit() aanroepen om de pipeline te trainen, dan predict() om voorspellingen te krijgen. Als alternatief kunnen fit() gevolgd door predict() apart worden aangeroepen voor meer controle.

3

Wat is data leakage in een machine learning context?

Antwoord

Data leakage treedt op wanneer informatie uit de testset of toekomstige data per ongeluk wordt gebruikt tijdens de training. Dit kan gebeuren tijdens preprocessing (gemiddelde berekenen over de hele dataset voor de split) of via features die het target indirect bevatten. Het resulteert in kunstmatig hoge prestaties die niet generaliseren.

4

Wat is de rol van ColumnTransformer in scikit-learn?

5

Wat is K-Fold cross-validation?

+19 gespreksvragen

Beheers Data Science & ML voor je volgende gesprek

Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.

Begin gratis