
PySpark - Xử lý quy mô lớn
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching
1Điểm vào chính để tạo một ứng dụng PySpark là gì?
Điểm vào chính để tạo một ứng dụng PySpark là gì?
Câu trả lời
SparkSession là điểm vào thống nhất được giới thiệu trong Spark 2.0. Nó thay thế các SparkContext, SQLContext và HiveContext cũ bằng một đối tượng duy nhất. SparkSession cho phép tạo DataFrame, thực thi truy vấn SQL và cấu hình ứng dụng Spark theo cách tập trung.
2Sự khác biệt cơ bản giữa RDD và DataFrame trong PySpark là gì?
Sự khác biệt cơ bản giữa RDD và DataFrame trong PySpark là gì?
Câu trả lời
DataFrame có schema có cấu trúc với các cột được đặt tên và kiểu hóa, cho phép Spark tối ưu hóa truy vấn thông qua Catalyst. RDD là một collection phân tán không có cấu trúc nơi Spark không biết cấu trúc dữ liệu bên trong, giới hạn các tối ưu hóa có thể.
3Sự khác biệt giữa transformation và action trong PySpark là gì?
Sự khác biệt giữa transformation và action trong PySpark là gì?
Câu trả lời
Transformation được đánh giá theo kiểu lazy và xây dựng một kế hoạch thực thi mà không kích hoạt tính toán. Action kích hoạt việc thực thi thực sự của kế hoạch trên cluster và trả về kết quả cho driver. Sự phân biệt này cho phép Spark tối ưu hóa kế hoạch trước khi thực thi.
Trong các thao tác sau, thao tác nào là một action của PySpark?
Làm thế nào để tạo DataFrame từ tệp Parquet trong PySpark?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
Data Lake - Kiến trúc và nạp dữ liệu
BigQuery cho Data Engineering
PostgreSQL - Quản trị
Data Modeling cho Data Engineering
Fivetran & Airbyte - Nạp dữ liệu
dbt - Kiến thức cơ bản
Apache Airflow - Cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Mẫu ETL / ELT / ETLT
Apache Airflow - Nâng cao
Airflow + dbt - Điều phối pipeline
Google Pub/Sub - Streaming dữ liệu
Apache Beam & Dataflow
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Data Architecture hiện đại
Giám sát và Khả năng quan sát
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí