Question 1

Sự khác biệt chính giữa các phương thức apply() và map() trên Pandas Series là gì?

Accepted Answer

Phương thức map() được thiết kế để ánh xạ mỗi giá trị trong Series thành giá trị mới bằng cách sử dụng dictionary hoặc hàm, và chỉ hoạt động trên Series. Ngược lại, apply() linh hoạt hơn: nó có thể áp dụng một hàm theo từng phần tử trên Series hoặc theo từng hàng/cột trên DataFrame. Đối với các phép biến đổi giá trị đơn giản trên Series, map() thường nhanh hơn và dễ đọc hơn.

Question 2

Phương thức Pandas nào nên được sử dụng để tổng hợp dữ liệu với nhiều hàm tổng hợp trên các cột khác nhau cùng lúc?

Accepted Answer

Phương thức agg() (hoặc aggregate()) cho phép áp dụng các hàm tổng hợp khác nhau cho các cột khác nhau trong một thao tác duy nhất. Nó chấp nhận một dictionary trong đó key là tên cột và value là các hàm cần áp dụng. Cách tiếp cận này hiệu quả và dễ đọc hơn so với việc xâu chuỗi nhiều lệnh gọi groupby với các hàm riêng lẻ.

Question 3

Sự khác biệt giữa merge() và join() trong Pandas là gì?

Accepted Answer

merge() là một hàm linh hoạt hơn nối hai DataFrame trên các cột cụ thể bằng cách sử dụng tham số on, left_on/right_on, hoặc các index. join() là một phương thức DataFrame nối trên các index theo mặc định và súc tích hơn cho các phép nối đơn giản dựa trên index. Đối với các phép nối phức tạp trên các cột không phải index, merge() được ưu tiên hơn vì nó cung cấp nhiều quyền kiểm soát hơn đối với các cột nối.

Python Analytics - Phân tích nâng cao và ML

Sự khác biệt chính giữa các phương thức apply() và map() trên Pandas Series là gì?

Câu trả lời

Phương thức Pandas nào nên được sử dụng để tổng hợp dữ liệu với nhiều hàm tổng hợp trên các cột khác nhau cùng lúc?

Câu trả lời

Sự khác biệt giữa merge() và join() trong Pandas là gì?

Câu trả lời

Làm thế nào để tạo một bảng pivot với pivot_table() chỉ định nhiều hàm tổng hợp?

Mục đích của transform() trong ngữ cảnh groupby() so với apply() là gì?

Các chủ đề phỏng vấn Data Analytics khác

Google Sheets - Kiến thức cơ bản

Google Sheets - Công thức nâng cao

SQL - Cơ bản

SQL - Tổng hợp và nhóm

SQL - Joins

BigQuery - Kiến thức cơ bản

Data Cleaning - Làm sạch dữ liệu

KPI và chỉ số kinh doanh

Thống kê mô tả

Zapier và tự động hóa No-Code

Nguyên tắc trực quan hóa dữ liệu

Python & Pandas - Cơ bản

Google Sheets - Dashboard tự động

SQL - Truy vấn con và CTE

SQL - Window Functions

BigQuery - Tính năng nâng cao

Data Modeling

Phân tích Funnel và Chuyển đổi

Phân tích Cohort và Retention

Google Tag Manager và Tracking

API và Webhook

dbt - Kiến thức cơ bản

AB Testing và Thống kê Ứng dụng

Looker Studio (Google Data Studio)

Power BI - Kiến Thức Cơ Bản

SQL - Truy Vấn Phân Tích Nâng Cao

dbt - Tính năng nâng cao

Power BI - DAX và Dashboard Nâng Cao

Nắm vững Data Analytics cho lần phỏng vấn tiếp theo