Question 1

Welke methode maakt het mogelijk om meerdere verschillende aggregatiefuncties toe te passen op een enkele kolom met groupby?

Accepted Answer

De agg()- (of aggregate())-methode maakt het mogelijk meerdere aggregatiefuncties toe te passen op dezelfde kolommen. Je kunt een lijst met functies zoals ['sum', 'mean', 'count'] of een dictionary doorgeven om verschillende functies per kolom op te geven. Deze flexibiliteit is essentieel voor het maken van uitgebreide statistische rapporten in één enkele bewerking.

Question 2

Hoe expliciet de resulterende kolommen benoemen tijdens een groupby-aggregatie met de named aggregation-syntaxis?

Accepted Answer

De named aggregation-syntaxis gebruikt agg() met benoemde tuples via keyword arguments. Bijvoorbeeld: df.groupby('category').agg(total_sales=('sales', 'sum'), avg_price=('price', 'mean')). Deze aanpak produceert expliciete en leesbare kolomnamen en vermijdt MultiIndex in kolommen die latere verwerking kunnen bemoeilijken.

Question 3

Wat is het belangrijkste verschil tussen transform() en apply() in een groupby-context?

Accepted Answer

transform() retourneert een resultaat van dezelfde grootte als de invoer, uitgelijnd op de originele index, ideaal voor het toevoegen van groepsstatistieken aan elke rij (bijv. groepsgemiddelde). apply() is flexibeler en kan een resultaat van verschillende grootte retourneren, maar is over het algemeen langzamer. Gebruik transform() voor bewerkingen zoals groepsnormalisatie of z-score berekening.

Geavanceerd Pandas

Welke methode maakt het mogelijk om meerdere verschillende aggregatiefuncties toe te passen op een enkele kolom met groupby?

Antwoord

Hoe expliciet de resulterende kolommen benoemen tijdens een groupby-aggregatie met de named aggregation-syntaxis?

Antwoord

Wat is het belangrijkste verschil tussen transform() en apply() in een groupby-context?

Antwoord

Hoe groepen in een groupby filteren om alleen die te behouden die aan een voorwaarde voldoen (bijv. groepen met meer dan 10 elementen)?

Wat is het verschil tussen pd.merge() met how='left' en how='inner'?

Andere Data Science & ML-sollicitatieonderwerpen

Python-basisbeginselen

Python Objectgeoriënteerd Programmeren

Python-datastructuren

Git-Fundamenten

SQL-basisbeginselen

NumPy-grondbeginselen

Pandas-basis

Jupyter & Google Colab

SQL Joins & geavanceerde queries

Visualisatie met Matplotlib & Seaborn

Interactieve visualisaties met Plotly

Beschrijvende statistiek

Inferentiële statistiek

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Supervised ML: Regressie

Supervised ML: Classificatie

Beslissingsbomen & Ensembles

Ongesuperviseerd ML

ML Pipelines & Validatie

Tijdreeksen & Voorspelling

Fundamenten van Deep Learning

TensorFlow & Keras

CNN en beeldclassificatie

RNN & Reeksen

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps en Deployment

Beheers Data Science & ML voor je volgende gesprek