Question 1

Welche Methode ermöglicht es, mehrere verschiedene Aggregationsfunktionen auf eine einzelne Spalte mit groupby anzuwenden?

Accepted Answer

Die agg()- (oder aggregate())-Methode ermöglicht es, mehrere Aggregationsfunktionen auf dieselben Spalten anzuwenden. Sie können eine Liste von Funktionen wie ['sum', 'mean', 'count'] oder ein Dictionary übergeben, um verschiedene Funktionen pro Spalte anzugeben. Diese Flexibilität ist wesentlich für die Erstellung umfassender statistischer Berichte in einem einzigen Vorgang.

Question 2

Wie kann man die resultierenden Spalten während einer groupby-Aggregation mit der named aggregation-Syntax explizit benennen?

Accepted Answer

Die named aggregation-Syntax verwendet agg() mit benannten Tupeln über Keyword-Argumente. Beispiel: df.groupby('category').agg(total_sales=('sales', 'sum'), avg_price=('price', 'mean')). Dieser Ansatz erzeugt explizite und lesbare Spaltennamen und vermeidet MultiIndex in Spalten, die nachfolgende Verarbeitung erschweren können.

Question 3

Was ist der Hauptunterschied zwischen transform() und apply() in einem groupby-Kontext?

Accepted Answer

transform() gibt ein Ergebnis der gleichen Größe wie die Eingabe zurück, ausgerichtet am ursprünglichen Index, ideal um Gruppenstatistiken zu jeder Zeile hinzuzufügen (z.B. Gruppenmittelwert). apply() ist flexibler und kann ein Ergebnis unterschiedlicher Größe zurückgeben, ist aber im Allgemeinen langsamer. Verwenden Sie transform() für Operationen wie Gruppennormalisierung oder z-Score-Berechnung.

Fortgeschrittenes Pandas

Welche Methode ermöglicht es, mehrere verschiedene Aggregationsfunktionen auf eine einzelne Spalte mit groupby anzuwenden?

Antwort

Wie kann man die resultierenden Spalten während einer groupby-Aggregation mit der named aggregation-Syntax explizit benennen?

Antwort

Was ist der Hauptunterschied zwischen transform() und apply() in einem groupby-Kontext?

Antwort

Wie filtert man Gruppen in einem groupby, um nur diejenigen zu behalten, die eine Bedingung erfüllen (z.B. Gruppen mit mehr als 10 Elementen)?

Was ist der Unterschied zwischen pd.merge() mit how='left' und how='inner'?

Weitere Data Science & ML-Interviewthemen

Python-Grundlagen

Python Objektorientierte Programmierung

Python-Datenstrukturen

Git-Grundlagen

SQL-Grundlagen

NumPy-Grundlagen

Pandas-Grundlagen

Jupyter & Google Colab

SQL Joins & fortgeschrittene Abfragen

Visualisierung mit Matplotlib & Seaborn

Interaktive Visualisierungen mit Plotly

Deskriptive Statistik

Inferenzstatistik

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Überwachtes ML: Regression

Überwachtes ML: Klassifikation

Entscheidungsbäume & Ensembles

Unüberwachtes ML

ML-Pipelines & Validierung

Zeitreihen & Prognosen

Grundlagen des Deep Learning

TensorFlow & Keras

CNN und Bildklassifizierung

RNN & Sequenzen

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps und Deployment

Meistere Data Science & ML für dein nächstes Interview