
ML Pipelines & Validatie
Scikit-learn pipelines, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, stratificatie
1Wat is het belangrijkste voordeel van het gebruik van een scikit-learn Pipeline in plaats van handmatig transformaties toe te passen?
Wat is het belangrijkste voordeel van het gebruik van een scikit-learn Pipeline in plaats van handmatig transformaties toe te passen?
Antwoord
Een Pipeline zorgt ervoor dat dezelfde transformaties consistent worden toegepast op zowel trainings- als testdata. Het kapselt alle preprocessing- en modelleerstappen in één object, wat de code vereenvoudigt, data leakage voorkomt en het gemakkelijker maakt om het model in productie te deployen.
2Welke methode moet worden aangeroepen op een Pipeline om alle stappen te trainen en een voorspelling te doen?
Welke methode moet worden aangeroepen op een Pipeline om alle stappen te trainen en een voorspelling te doen?
Antwoord
De fit_predict methode bestaat niet voor regressie- of classificatie-Pipelines. U moet eerst fit() aanroepen om de pipeline te trainen, dan predict() om voorspellingen te krijgen. Als alternatief kunnen fit() gevolgd door predict() apart worden aangeroepen voor meer controle.
3Wat is data leakage in een machine learning context?
Wat is data leakage in een machine learning context?
Antwoord
Data leakage treedt op wanneer informatie uit de testset of toekomstige data per ongeluk wordt gebruikt tijdens de training. Dit kan gebeuren tijdens preprocessing (gemiddelde berekenen over de hele dataset voor de split) of via features die het target indirect bevatten. Het resulteert in kunstmatig hoge prestaties die niet generaliseren.
Wat is de rol van ColumnTransformer in scikit-learn?
Wat is K-Fold cross-validation?
+19 gespreksvragen
Andere Data Science & ML-sollicitatieonderwerpen
Python-basisbeginselen
Python Objectgeoriënteerd Programmeren
Python-datastructuren
Git-Fundamenten
SQL-basisbeginselen
NumPy-grondbeginselen
Pandas-basis
Jupyter & Google Colab
SQL Joins & geavanceerde queries
Geavanceerd Pandas
Visualisatie met Matplotlib & Seaborn
Interactieve visualisaties met Plotly
Beschrijvende statistiek
Inferentiële statistiek
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Supervised ML: Regressie
Supervised ML: Classificatie
Beslissingsbomen & Ensembles
Ongesuperviseerd ML
Tijdreeksen & Voorspelling
Fundamenten van Deep Learning
TensorFlow & Keras
CNN en beeldclassificatie
RNN & Reeksen
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps en Deployment
Beheers Data Science & ML voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis