Question 1

Який метод дозволяє застосувати кілька різних функцій агрегації до однієї колонки з groupby?

Accepted Answer

Метод agg() (або aggregate()) дозволяє застосовувати кілька функцій агрегації до одних і тих самих колонок. Можна передати список функцій, як ['sum', 'mean', 'count'], або словник для вказівки різних функцій для кожної колонки. Ця гнучкість необхідна для створення комплексних статистичних звітів в одній операції.

Question 2

Як явно назвати результуючі колонки під час агрегації groupby з використанням синтаксису named aggregation?

Accepted Answer

Синтаксис named aggregation використовує agg() з іменованими кортежами через ключові аргументи. Наприклад: df.groupby('category').agg(total_sales=('sales', 'sum'), avg_price=('price', 'mean')). Цей підхід створює явні та читабельні імена колонок, уникаючи MultiIndex у колонках, що може ускладнити подальшу обробку.

Question 3

Яка основна різниця між transform() і apply() у контексті groupby?

Accepted Answer

transform() повертає результат того ж розміру, що й вхідні дані, вирівняний за оригінальним індексом, ідеально підходить для додавання статистики групи до кожного рядка (наприклад, середнє значення групи). apply() є більш гнучким і може повернути результат іншого розміру, але зазвичай повільніший. Використовуйте transform() для операцій, таких як нормалізація групи або обчислення z-score.

Просунутий Pandas

Який метод дозволяє застосувати кілька різних функцій агрегації до однієї колонки з groupby?

Відповідь

Як явно назвати результуючі колонки під час агрегації groupby з використанням синтаксису named aggregation?

Відповідь

Яка основна різниця між transform() і apply() у контексті groupby?

Відповідь

Як фільтрувати групи в groupby, щоб залишити лише ті, що задовольняють умову (наприклад, групи з більш ніж 10 елементами)?

Яка різниця між pd.merge() з how='left' та how='inner'?

Інші теми співбесід Data Science & ML

Основи Python

Об'єктно-орієнтоване програмування Python

Структури даних Python

Основи Git

Основи SQL

Основи NumPy

Основи Pandas

Jupyter & Google Colab

SQL Joins та розширені запити

Візуалізація з Matplotlib & Seaborn

Інтерактивні візуалізації з Plotly

Описова статистика

Інференційна статистика

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Кероване ML: Регресія

Кероване ML: Класифікація

Дерева рішень та ансамблі

Некероване ML

ML Pipelines та валідація

Часові ряди та прогнозування

Основи Deep Learning

TensorFlow & Keras

CNN та класифікація зображень

RNN та послідовності

Transformers та Attention

NLP та Hugging Face

GenAI та LangChain

MLOps та розгортання

Опануй Data Science & ML для наступної співбесіди