Data Science & ML

Pandas nâng cao

GroupBy, merge, concat, pivot tables, time series, apply/transform, MultiIndex, hiệu năng

24 câu hỏi phỏng vấn·
Mid-Level
1

Phương thức nào cho phép áp dụng nhiều hàm tổng hợp khác nhau cho một cột duy nhất với groupby?

Câu trả lời

Phương thức agg() (hoặc aggregate()) cho phép áp dụng nhiều hàm tổng hợp cho cùng các cột. Bạn có thể truyền một danh sách các hàm như ['sum', 'mean', 'count'] hoặc một dictionary để chỉ định các hàm khác nhau cho từng cột. Sự linh hoạt này rất cần thiết để tạo các báo cáo thống kê toàn diện trong một thao tác duy nhất.

2

Làm thế nào để đặt tên rõ ràng cho các cột kết quả trong quá trình tổng hợp groupby sử dụng cú pháp named aggregation?

Câu trả lời

Cú pháp named aggregation sử dụng agg() với các tuple được đặt tên thông qua keyword argument. Ví dụ: df.groupby('category').agg(total_sales=('sales', 'sum'), avg_price=('price', 'mean')). Cách tiếp cận này tạo ra tên cột rõ ràng và dễ đọc, tránh MultiIndex trong các cột có thể làm phức tạp việc xử lý tiếp theo.

3

Sự khác biệt chính giữa transform() và apply() trong ngữ cảnh groupby là gì?

Câu trả lời

transform() trả về kết quả có cùng kích thước với đầu vào, được căn chỉnh theo chỉ mục gốc, lý tưởng để thêm thống kê nhóm vào từng hàng (ví dụ: trung bình nhóm). apply() linh hoạt hơn và có thể trả về kết quả có kích thước khác, nhưng thường chậm hơn. Sử dụng transform() cho các thao tác như chuẩn hóa nhóm hoặc tính toán z-score.

4

Làm thế nào để lọc các nhóm trong groupby để chỉ giữ những nhóm thỏa mãn điều kiện (ví dụ: nhóm có hơn 10 phần tử)?

5

Sự khác biệt giữa pd.merge() với how='left' và how='inner' là gì?

+21 câu hỏi phỏng vấn

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí