Question 1

PCollection trong Apache Beam là gì?

Accepted Answer

PCollection là trừu tượng dữ liệu chính trong Apache Beam. Nó đại diện cho một tập dữ liệu phân tán, có khả năng không giới hạn, có thể được xử lý song song. Không giống như collection thông thường, PCollection là bất biến, nghĩa là mỗi transform tạo ra một PCollection mới thay vì sửa đổi bản gốc.

Question 2

Sự khác biệt chính giữa PCollection bounded và unbounded là gì?

Accepted Answer

Một PCollection bounded có kích thước hữu hạn và đã biết (như một file hoặc bảng), trong khi unbounded đại diện cho một luồng dữ liệu có khả năng vô hạn (như các sự kiện streaming). Sự phân biệt này ảnh hưởng đến cách Beam xử lý dữ liệu: bounded sử dụng xử lý batch cổ điển, trong khi unbounded yêu cầu windowing và trigger để xử lý luồng liên tục.

Question 3

Vai trò của biến đổi ParDo trong Apache Beam là gì?

Accepted Answer

ParDo (Parallel Do) là biến đổi linh hoạt nhất trong Apache Beam. Nó áp dụng một hàm do người dùng định nghĩa (DoFn) cho từng phần tử của PCollection theo cách song song. ParDo có thể tạo ra không, một hoặc nhiều phần tử đầu ra cho mỗi phần tử đầu vào, làm cho nó phù hợp cho việc filtering, mapping và flat-mapping.

Apache Beam & Dataflow

PCollection trong Apache Beam là gì?

Câu trả lời

Sự khác biệt chính giữa PCollection bounded và unbounded là gì?

Câu trả lời

Vai trò của biến đổi ParDo trong Apache Beam là gì?

Câu trả lời

Làm thế nào để sử dụng side inputs trong biến đổi ParDo?

Sự khác biệt giữa GroupByKey và CoGroupByKey trong Apache Beam là gì?

Các chủ đề phỏng vấn Data Engineering khác

Linux & Shell - Cơ bản

Git & GitHub - Kiến thức cơ bản

Python nâng cao cho Data Engineering

Docker - Cơ bản

Google Cloud Platform - Cơ bản

CI/CD và chất lượng mã

Docker Compose

FastAPI - API dữ liệu

SQL nâng cao cho Data Engineering

Data Lake - Kiến trúc và nạp dữ liệu

BigQuery cho Data Engineering

PostgreSQL - Quản trị

Data Modeling cho Data Engineering

Fivetran & Airbyte - Nạp dữ liệu

dbt - Kiến thức cơ bản

Apache Airflow - Cơ bản

Kubernetes - Cơ Bản

dbt - Tính năng nâng cao

Mẫu ETL / ELT / ETLT

Apache Airflow - Nâng cao

Airflow + dbt - Điều phối pipeline

PySpark - Xử lý quy mô lớn

Google Pub/Sub - Streaming dữ liệu

Kubernetes - Production và Scaling

Terraform - Infrastructure as Code

Cơ sở dữ liệu NoSQL

Data Architecture hiện đại

Giám sát và Khả năng quan sát

IAM và Bảo mật Dữ liệu

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo