
Fortgeschrittenes Pandas
GroupBy, merge, concat, pivot tables, time series, apply/transform, MultiIndex, Performance
1Welche Methode ermöglicht es, mehrere verschiedene Aggregationsfunktionen auf eine einzelne Spalte mit groupby anzuwenden?
Welche Methode ermöglicht es, mehrere verschiedene Aggregationsfunktionen auf eine einzelne Spalte mit groupby anzuwenden?
Antwort
Die agg()- (oder aggregate())-Methode ermöglicht es, mehrere Aggregationsfunktionen auf dieselben Spalten anzuwenden. Sie können eine Liste von Funktionen wie ['sum', 'mean', 'count'] oder ein Dictionary übergeben, um verschiedene Funktionen pro Spalte anzugeben. Diese Flexibilität ist wesentlich für die Erstellung umfassender statistischer Berichte in einem einzigen Vorgang.
2Wie kann man die resultierenden Spalten während einer groupby-Aggregation mit der named aggregation-Syntax explizit benennen?
Wie kann man die resultierenden Spalten während einer groupby-Aggregation mit der named aggregation-Syntax explizit benennen?
Antwort
Die named aggregation-Syntax verwendet agg() mit benannten Tupeln über Keyword-Argumente. Beispiel: df.groupby('category').agg(total_sales=('sales', 'sum'), avg_price=('price', 'mean')). Dieser Ansatz erzeugt explizite und lesbare Spaltennamen und vermeidet MultiIndex in Spalten, die nachfolgende Verarbeitung erschweren können.
3Was ist der Hauptunterschied zwischen transform() und apply() in einem groupby-Kontext?
Was ist der Hauptunterschied zwischen transform() und apply() in einem groupby-Kontext?
Antwort
transform() gibt ein Ergebnis der gleichen Größe wie die Eingabe zurück, ausgerichtet am ursprünglichen Index, ideal um Gruppenstatistiken zu jeder Zeile hinzuzufügen (z.B. Gruppenmittelwert). apply() ist flexibler und kann ein Ergebnis unterschiedlicher Größe zurückgeben, ist aber im Allgemeinen langsamer. Verwenden Sie transform() für Operationen wie Gruppennormalisierung oder z-Score-Berechnung.
Wie filtert man Gruppen in einem groupby, um nur diejenigen zu behalten, die eine Bedingung erfüllen (z.B. Gruppen mit mehr als 10 Elementen)?
Was ist der Unterschied zwischen pd.merge() mit how='left' und how='inner'?
+21 Interview-Fragen
Weitere Data Science & ML-Interviewthemen
Python-Grundlagen
Python Objektorientierte Programmierung
Python-Datenstrukturen
Git-Grundlagen
SQL-Grundlagen
NumPy-Grundlagen
Pandas-Grundlagen
Jupyter & Google Colab
SQL Joins & fortgeschrittene Abfragen
Visualisierung mit Matplotlib & Seaborn
Interaktive Visualisierungen mit Plotly
Deskriptive Statistik
Inferenzstatistik
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Überwachtes ML: Regression
Überwachtes ML: Klassifikation
Entscheidungsbäume & Ensembles
Unüberwachtes ML
ML-Pipelines & Validierung
Zeitreihen & Prognosen
Grundlagen des Deep Learning
TensorFlow & Keras
CNN und Bildklassifizierung
RNN & Sequenzen
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps und Deployment
Meistere Data Science & ML für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten