Question 1

Điểm vào chính để tạo một ứng dụng PySpark là gì?

Accepted Answer

SparkSession là điểm vào thống nhất được giới thiệu trong Spark 2.0. Nó thay thế các SparkContext, SQLContext và HiveContext cũ bằng một đối tượng duy nhất. SparkSession cho phép tạo DataFrame, thực thi truy vấn SQL và cấu hình ứng dụng Spark theo cách tập trung.

Question 2

Sự khác biệt cơ bản giữa RDD và DataFrame trong PySpark là gì?

Accepted Answer

DataFrame có schema có cấu trúc với các cột được đặt tên và kiểu hóa, cho phép Spark tối ưu hóa truy vấn thông qua Catalyst. RDD là một collection phân tán không có cấu trúc nơi Spark không biết cấu trúc dữ liệu bên trong, giới hạn các tối ưu hóa có thể.

Question 3

Sự khác biệt giữa transformation và action trong PySpark là gì?

Accepted Answer

Transformation được đánh giá theo kiểu lazy và xây dựng một kế hoạch thực thi mà không kích hoạt tính toán. Action kích hoạt việc thực thi thực sự của kế hoạch trên cluster và trả về kết quả cho driver. Sự phân biệt này cho phép Spark tối ưu hóa kế hoạch trước khi thực thi.

PySpark - Xử lý quy mô lớn

Điểm vào chính để tạo một ứng dụng PySpark là gì?

Câu trả lời

Sự khác biệt cơ bản giữa RDD và DataFrame trong PySpark là gì?

Câu trả lời

Sự khác biệt giữa transformation và action trong PySpark là gì?

Câu trả lời

Trong các thao tác sau, thao tác nào là một action của PySpark?

Làm thế nào để tạo DataFrame từ tệp Parquet trong PySpark?

Các chủ đề phỏng vấn Data Engineering khác

Linux & Shell - Cơ bản

Git & GitHub - Kiến thức cơ bản

Python nâng cao cho Data Engineering

Docker - Cơ bản

Google Cloud Platform - Cơ bản

CI/CD và chất lượng mã

Docker Compose

FastAPI - API dữ liệu

SQL nâng cao cho Data Engineering

Data Lake - Kiến trúc và nạp dữ liệu

BigQuery cho Data Engineering

PostgreSQL - Quản trị

Data Modeling cho Data Engineering

Fivetran & Airbyte - Nạp dữ liệu

dbt - Kiến thức cơ bản

Apache Airflow - Cơ bản

Kubernetes - Cơ Bản

dbt - Tính năng nâng cao

Mẫu ETL / ELT / ETLT

Apache Airflow - Nâng cao

Airflow + dbt - Điều phối pipeline

Google Pub/Sub - Streaming dữ liệu

Apache Beam & Dataflow

Kubernetes - Production và Scaling

Terraform - Infrastructure as Code

Cơ sở dữ liệu NoSQL

Data Architecture hiện đại

Giám sát và Khả năng quan sát

IAM và Bảo mật Dữ liệu

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo