Question 1

Quelle méthode permet d'appliquer plusieurs fonctions d'agrégation différentes sur une seule colonne avec groupby ?

Accepted Answer

La méthode agg() (ou aggregate()) permet d'appliquer plusieurs fonctions d'agrégation sur les mêmes colonnes. On peut passer une liste de fonctions comme ['sum', 'mean', 'count'] ou un dictionnaire pour spécifier des fonctions différentes par colonne. Cette flexibilité est essentielle pour créer des rapports statistiques complets en une seule opération.

Question 2

Comment nommer explicitement les colonnes résultantes lors d'une agrégation avec groupby en utilisant la syntaxe named aggregation ?

Accepted Answer

La syntaxe named aggregation utilise agg() avec des tuples nommés via des keyword arguments. Par exemple : df.groupby('category').agg(total_sales=('sales', 'sum'), avg_price=('price', 'mean')). Cette approche produit des noms de colonnes explicites et lisibles, évitant les MultiIndex dans les colonnes qui peuvent compliquer les traitements ultérieurs.

Question 3

Quelle est la différence principale entre transform() et apply() dans un contexte groupby ?

Accepted Answer

transform() retourne un résultat de la même taille que l'entrée, aligné sur l'index original, idéal pour ajouter des statistiques de groupe à chaque ligne (ex: moyenne du groupe). apply() est plus flexible et peut retourner un résultat de taille différente, mais est généralement plus lent. Utiliser transform() pour des opérations comme la normalisation par groupe ou le calcul de z-scores.

Pandas avancé

Quelle méthode permet d'appliquer plusieurs fonctions d'agrégation différentes sur une seule colonne avec groupby ?

Réponse

Comment nommer explicitement les colonnes résultantes lors d'une agrégation avec groupby en utilisant la syntaxe named aggregation ?

Réponse

Quelle est la différence principale entre transform() et apply() dans un contexte groupby ?

Réponse

Comment filtrer les groupes dans un groupby pour ne garder que ceux qui satisfont une condition (par exemple, groupes avec plus de 10 éléments) ?

Quelle est la différence entre pd.merge() avec how='left' et how='inner' ?

Autres sujets d'entretien Data Science & ML

Les bases de Python

Programmation Orientée Objet Python

Structures de données Python

Fondamentaux Git

Les bases de SQL

Fondamentaux NumPy

Les bases de Pandas

Jupyter & Google Colab

SQL Joins & Requêtes avancées

Visualisation avec Matplotlib & Seaborn

Visualisations interactives avec Plotly

Statistiques descriptives

Statistiques inférentielles

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisé : Régression

ML Supervisé : Classification

Arbres de décision & Ensembles

ML Non supervisé

Pipelines ML & Validation

Séries temporelles & Prévisions

Fondamentaux Deep Learning

TensorFlow & Keras

CNN & Classification d'images

RNN & Séquences

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps & Déploiement

Maîtrise Data Science & ML pour ton prochain entretien