Data Engineering

Apache Airflow - Nâng cao

Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring

20 câu hỏi phỏng vấn·
Senior
1

Vai trò chính của một Sensor trong Apache Airflow là gì?

Câu trả lời

Sensor là một operator đặc biệt chờ một điều kiện được đáp ứng trước khi tiếp tục thực thi DAG. Nó kiểm tra định kỳ (poke) xem điều kiện đã được thỏa mãn chưa, chẳng hạn như sự xuất hiện của tệp, tính khả dụng của partition hoặc trạng thái của một task khác. Sensors rất cần thiết để điều phối các workflow phụ thuộc vào các sự kiện bên ngoài.

2

Sự khác biệt giữa chế độ 'poke' và 'reschedule' cho một Sensor là gì?

Câu trả lời

Trong chế độ poke, Sensor liên tục chiếm một worker slot và kiểm tra điều kiện theo các khoảng thời gian đều đặn (poke_interval). Trong chế độ reschedule, Sensor giải phóng worker slot giữa các lần kiểm tra và tự lên lịch lại. Chế độ reschedule được khuyến nghị cho các điều kiện chạy lâu vì nó giải phóng tài nguyên cho các task khác.

3

Sensor nào nên được sử dụng để chờ một partition Hive khả dụng?

Câu trả lời

HivePartitionSensor kiểm tra sự tồn tại của một partition cụ thể trong một bảng Hive. Nó thường được sử dụng trong các data pipeline để đảm bảo dữ liệu nguồn có sẵn trước khi chạy các phép biến đổi. Nó chấp nhận các tham số như schema, table và partition để xác minh.

4

Làm thế nào để truyền dữ liệu giữa hai task Airflow?

5

Kích thước tối đa được khuyến nghị cho dữ liệu lưu trữ trong XCom là bao nhiêu?

+17 câu hỏi phỏng vấn

Các chủ đề phỏng vấn Data Engineering khác

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí