
Apache Beam & Dataflow
PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates
1PCollection trong Apache Beam là gì?
PCollection trong Apache Beam là gì?
Câu trả lời
PCollection là trừu tượng dữ liệu chính trong Apache Beam. Nó đại diện cho một tập dữ liệu phân tán, có khả năng không giới hạn, có thể được xử lý song song. Không giống như collection thông thường, PCollection là bất biến, nghĩa là mỗi transform tạo ra một PCollection mới thay vì sửa đổi bản gốc.
2Sự khác biệt chính giữa PCollection bounded và unbounded là gì?
Sự khác biệt chính giữa PCollection bounded và unbounded là gì?
Câu trả lời
Một PCollection bounded có kích thước hữu hạn và đã biết (như một file hoặc bảng), trong khi unbounded đại diện cho một luồng dữ liệu có khả năng vô hạn (như các sự kiện streaming). Sự phân biệt này ảnh hưởng đến cách Beam xử lý dữ liệu: bounded sử dụng xử lý batch cổ điển, trong khi unbounded yêu cầu windowing và trigger để xử lý luồng liên tục.
3Vai trò của biến đổi ParDo trong Apache Beam là gì?
Vai trò của biến đổi ParDo trong Apache Beam là gì?
Câu trả lời
ParDo (Parallel Do) là biến đổi linh hoạt nhất trong Apache Beam. Nó áp dụng một hàm do người dùng định nghĩa (DoFn) cho từng phần tử của PCollection theo cách song song. ParDo có thể tạo ra không, một hoặc nhiều phần tử đầu ra cho mỗi phần tử đầu vào, làm cho nó phù hợp cho việc filtering, mapping và flat-mapping.
Làm thế nào để sử dụng side inputs trong biến đổi ParDo?
Sự khác biệt giữa GroupByKey và CoGroupByKey trong Apache Beam là gì?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
Data Lake - Kiến trúc và nạp dữ liệu
BigQuery cho Data Engineering
PostgreSQL - Quản trị
Data Modeling cho Data Engineering
Fivetran & Airbyte - Nạp dữ liệu
dbt - Kiến thức cơ bản
Apache Airflow - Cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Mẫu ETL / ELT / ETLT
Apache Airflow - Nâng cao
Airflow + dbt - Điều phối pipeline
PySpark - Xử lý quy mô lớn
Google Pub/Sub - Streaming dữ liệu
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Data Architecture hiện đại
Giám sát và Khả năng quan sát
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí