Question 1

Quale metodo permette di applicare più funzioni di aggregazione diverse a una singola colonna con groupby?

Accepted Answer

Il metodo agg() (o aggregate()) permette di applicare più funzioni di aggregazione alle stesse colonne. È possibile passare una lista di funzioni come ['sum', 'mean', 'count'] o un dizionario per specificare funzioni diverse per colonna. Questa flessibilità è essenziale per creare report statistici completi in una singola operazione.

Question 2

Come nominare esplicitamente le colonne risultanti durante un'aggregazione con groupby usando la sintassi named aggregation?

Accepted Answer

La sintassi named aggregation usa agg() con tuple nominate tramite keyword argument. Esempio: df.groupby('category').agg(total_sales=('sales', 'sum'), avg_price=('price', 'mean')). Questo approccio produce nomi di colonne espliciti e leggibili, evitando MultiIndex nelle colonne che possono complicare elaborazioni successive.

Question 3

Qual è la differenza principale tra transform() e apply() in un contesto groupby?

Accepted Answer

transform() restituisce un risultato della stessa dimensione dell'input, allineato all'indice originale, ideale per aggiungere statistiche di gruppo a ogni riga (es. media del gruppo). apply() è più flessibile e può restituire un risultato di dimensione diversa, ma generalmente è più lento. Usa transform() per operazioni come la normalizzazione di gruppo o il calcolo di z-score.

Pandas avanzato

Quale metodo permette di applicare più funzioni di aggregazione diverse a una singola colonna con groupby?

Risposta

Come nominare esplicitamente le colonne risultanti durante un'aggregazione con groupby usando la sintassi named aggregation?

Risposta

Qual è la differenza principale tra transform() e apply() in un contesto groupby?

Risposta

Come filtrare i gruppi in un groupby per mantenere solo quelli che soddisfano una condizione (per esempio, gruppi con più di 10 elementi)?

Qual è la differenza tra pd.merge() con how='left' e how='inner'?

Altri argomenti di colloquio Data Science & ML

Fondamenti di Python

Programmazione Orientata agli Oggetti in Python

Strutture dati Python

Fondamenti di Git

Fondamenti di SQL

Fondamenti di NumPy

Fondamenti di Pandas

Jupyter & Google Colab

SQL Joins e query avanzate

Visualizzazione con Matplotlib & Seaborn

Visualizzazioni interattive con Plotly

Statistica descrittiva

Statistica inferenziale

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisionato: Regressione

ML Supervisionato: Classificazione

Alberi Decisionali e Ensembles

ML Non Supervisionato

Pipeline ML e Validazione

Serie Temporali e Previsione

Fondamenti di Deep Learning

TensorFlow & Keras

CNN e classificazione di immagini

RNN e Sequenze

Transformers e Attention

NLP e Hugging Face

GenAI e LangChain

MLOps e Deployment

Padroneggia Data Science & ML per il tuo prossimo colloquio