Data Engineering

PySpark - Xử lý quy mô lớn

SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching

20 câu hỏi phỏng vấn·
Senior
1

Điểm vào chính để tạo một ứng dụng PySpark là gì?

Câu trả lời

SparkSession là điểm vào thống nhất được giới thiệu trong Spark 2.0. Nó thay thế các SparkContext, SQLContext và HiveContext cũ bằng một đối tượng duy nhất. SparkSession cho phép tạo DataFrame, thực thi truy vấn SQL và cấu hình ứng dụng Spark theo cách tập trung.

2

Sự khác biệt cơ bản giữa RDD và DataFrame trong PySpark là gì?

Câu trả lời

DataFrame có schema có cấu trúc với các cột được đặt tên và kiểu hóa, cho phép Spark tối ưu hóa truy vấn thông qua Catalyst. RDD là một collection phân tán không có cấu trúc nơi Spark không biết cấu trúc dữ liệu bên trong, giới hạn các tối ưu hóa có thể.

3

Sự khác biệt giữa transformation và action trong PySpark là gì?

Câu trả lời

Transformation được đánh giá theo kiểu lazy và xây dựng một kế hoạch thực thi mà không kích hoạt tính toán. Action kích hoạt việc thực thi thực sự của kế hoạch trên cluster và trả về kết quả cho driver. Sự phân biệt này cho phép Spark tối ưu hóa kế hoạch trước khi thực thi.

4

Trong các thao tác sau, thao tác nào là một action của PySpark?

5

Làm thế nào để tạo DataFrame từ tệp Parquet trong PySpark?

+17 câu hỏi phỏng vấn

Các chủ đề phỏng vấn Data Engineering khác

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí