Question 1

Która metoda pozwala zastosować wiele różnych funkcji agregacji do jednej kolumny z groupby?

Accepted Answer

Metoda agg() (lub aggregate()) pozwala stosować wiele funkcji agregacji do tych samych kolumn. Można przekazać listę funkcji jak ['sum', 'mean', 'count'] lub słownik, aby określić różne funkcje dla każdej kolumny. Ta elastyczność jest niezbędna do tworzenia kompleksowych raportów statystycznych w jednej operacji.

Question 2

Jak jawnie nazwać kolumny wynikowe podczas agregacji groupby używając składni named aggregation?

Accepted Answer

Składnia named aggregation używa agg() z nazwanymi krotkami przez argumenty kluczowe. Przykład: df.groupby('category').agg(total_sales=('sales', 'sum'), avg_price=('price', 'mean')). To podejście produkuje jawne i czytelne nazwy kolumn, unikając MultiIndex w kolumnach, które mogą komplikować dalsze przetwarzanie.

Question 3

Jaka jest główna różnica między transform() a apply() w kontekście groupby?

Accepted Answer

transform() zwraca wynik o tym samym rozmiarze co wejście, wyrównany do oryginalnego indeksu, idealny do dodawania statystyk grupy do każdego wiersza (np. średnia grupy). apply() jest bardziej elastyczny i może zwrócić wynik o innym rozmiarze, ale jest generalnie wolniejszy. Używaj transform() do operacji jak normalizacja grupowa czy obliczanie z-score.

Zaawansowany Pandas

Która metoda pozwala zastosować wiele różnych funkcji agregacji do jednej kolumny z groupby?

Odpowiedź

Jak jawnie nazwać kolumny wynikowe podczas agregacji groupby używając składni named aggregation?

Odpowiedź

Jaka jest główna różnica między transform() a apply() w kontekście groupby?

Odpowiedź

Jak filtrować grupy w groupby, aby zachować tylko te spełniające warunek (np. grupy z więcej niż 10 elementami)?

Jaka jest różnica między pd.merge() z how='left' a how='inner'?

Inne tematy rekrutacyjne Data Science & ML

Podstawy Pythona

Programowanie Obiektowe w Pythonie

Struktury danych Python

Podstawy Git

Podstawy SQL

Podstawy NumPy

Podstawy Pandas

Jupyter & Google Colab

SQL Joins i zaawansowane zapytania

Wizualizacja z Matplotlib & Seaborn

Interaktywne wizualizacje z Plotly

Statystyka opisowa

Statystyka inferencyjna

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Uczenie nadzorowane: Regresja

Uczenie nadzorowane: Klasyfikacja

Drzewa Decyzyjne i Ensembles

ML Nienadzorowane

Pipeline'y ML i walidacja

Szeregi czasowe i prognozowanie

Podstawy Deep Learning

TensorFlow & Keras

CNN i klasyfikacja obrazów

RNN i Sekwencje

Transformers i Attention

NLP i Hugging Face

GenAI i LangChain

MLOps i Wdrożenie

Opanuj Data Science & ML na następną rozmowę