
Pandas avancé
GroupBy, merge, concat, pivot tables, time series, apply/transform, MultiIndex, performance
1Quelle méthode permet d'appliquer plusieurs fonctions d'agrégation différentes sur une seule colonne avec groupby ?
Quelle méthode permet d'appliquer plusieurs fonctions d'agrégation différentes sur une seule colonne avec groupby ?
Réponse
La méthode agg() (ou aggregate()) permet d'appliquer plusieurs fonctions d'agrégation sur les mêmes colonnes. On peut passer une liste de fonctions comme ['sum', 'mean', 'count'] ou un dictionnaire pour spécifier des fonctions différentes par colonne. Cette flexibilité est essentielle pour créer des rapports statistiques complets en une seule opération.
2Comment nommer explicitement les colonnes résultantes lors d'une agrégation avec groupby en utilisant la syntaxe named aggregation ?
Comment nommer explicitement les colonnes résultantes lors d'une agrégation avec groupby en utilisant la syntaxe named aggregation ?
Réponse
La syntaxe named aggregation utilise agg() avec des tuples nommés via des keyword arguments. Par exemple : df.groupby('category').agg(total_sales=('sales', 'sum'), avg_price=('price', 'mean')). Cette approche produit des noms de colonnes explicites et lisibles, évitant les MultiIndex dans les colonnes qui peuvent compliquer les traitements ultérieurs.
3Quelle est la différence principale entre transform() et apply() dans un contexte groupby ?
Quelle est la différence principale entre transform() et apply() dans un contexte groupby ?
Réponse
transform() retourne un résultat de la même taille que l'entrée, aligné sur l'index original, idéal pour ajouter des statistiques de groupe à chaque ligne (ex: moyenne du groupe). apply() est plus flexible et peut retourner un résultat de taille différente, mais est généralement plus lent. Utiliser transform() pour des opérations comme la normalisation par groupe ou le calcul de z-scores.
Comment filtrer les groupes dans un groupby pour ne garder que ceux qui satisfont une condition (par exemple, groupes avec plus de 10 éléments) ?
Quelle est la différence entre pd.merge() avec how='left' et how='inner' ?
+21 questions d'entretien
Autres sujets d'entretien Data Science & ML
Les bases de Python
Programmation Orientée Objet Python
Structures de données Python
Fondamentaux Git
Les bases de SQL
Fondamentaux NumPy
Les bases de Pandas
Jupyter & Google Colab
SQL Joins & Requêtes avancées
Visualisation avec Matplotlib & Seaborn
Visualisations interactives avec Plotly
Statistiques descriptives
Statistiques inférentielles
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisé : Régression
ML Supervisé : Classification
Arbres de décision & Ensembles
ML Non supervisé
Pipelines ML & Validation
Séries temporelles & Prévisions
Fondamentaux Deep Learning
TensorFlow & Keras
CNN & Classification d'images
RNN & Séquences
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps & Déploiement
Maîtrise Data Science & ML pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement