Data Engineering

Apache Airflow - Cơ bản

DAG, operator (Bash, Python, SQL), lập lịch, phụ thuộc task, Airflow UI, connection, variable, trigger rule

20 câu hỏi phỏng vấn·
Mid-Level
1

DAG trong Apache Airflow là gì?

Câu trả lời

Một DAG (Directed Acyclic Graph) là một tập hợp các task được tổ chức với các phụ thuộc và mối quan hệ, đại diện cho một workflow hoàn chỉnh. Tính phi chu trình nghĩa là không thể có vòng lặp trong graph phụ thuộc, điều này đảm bảo mỗi task được thực thi đúng một lần mỗi lần chạy. DAG xác định khi nào và cách thức các task chạy, nhưng không xác định cụ thể chúng làm gì.

2

Tham số DAG nào xác định ngày mà scheduler bắt đầu lập lịch các lần chạy?

Câu trả lời

Tham số start_date xác định ngày mà Airflow bắt đầu lập lịch các lần chạy DAG. Ngày này được sử dụng kết hợp với schedule_interval để xác định data intervals. Một điểm quan trọng: nếu start_date ở quá khứ, Airflow có thể kích hoạt backfill để bù lại các lần chạy bị bỏ lỡ, trừ khi catchup=False được cấu hình.

3

Operator nào nên được sử dụng để thực thi một hàm Python trong một DAG Airflow?

Câu trả lời

PythonOperator cho phép thực thi một hàm Python callable trong một DAG Airflow. Hàm được truyền qua tham số python_callable và có thể nhận các đối số qua op_args (danh sách) hoặc op_kwargs (từ điển). PythonOperator là một trong những operator được sử dụng phổ biến nhất vì nó cung cấp sự linh hoạt cao để chạy mã Python tùy chỉnh.

4

Làm thế nào để xác định một phụ thuộc giữa hai task task_a và task_b để task_b chạy sau task_a?

5

Biểu thức cron nào đại diện cho việc thực thi hàng ngày vào nửa đêm?

+17 câu hỏi phỏng vấn

Các chủ đề phỏng vấn Data Engineering khác

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí