
Apache Airflow - Cơ bản
DAG, operator (Bash, Python, SQL), lập lịch, phụ thuộc task, Airflow UI, connection, variable, trigger rule
1DAG trong Apache Airflow là gì?
DAG trong Apache Airflow là gì?
Câu trả lời
Một DAG (Directed Acyclic Graph) là một tập hợp các task được tổ chức với các phụ thuộc và mối quan hệ, đại diện cho một workflow hoàn chỉnh. Tính phi chu trình nghĩa là không thể có vòng lặp trong graph phụ thuộc, điều này đảm bảo mỗi task được thực thi đúng một lần mỗi lần chạy. DAG xác định khi nào và cách thức các task chạy, nhưng không xác định cụ thể chúng làm gì.
2Tham số DAG nào xác định ngày mà scheduler bắt đầu lập lịch các lần chạy?
Tham số DAG nào xác định ngày mà scheduler bắt đầu lập lịch các lần chạy?
Câu trả lời
Tham số start_date xác định ngày mà Airflow bắt đầu lập lịch các lần chạy DAG. Ngày này được sử dụng kết hợp với schedule_interval để xác định data intervals. Một điểm quan trọng: nếu start_date ở quá khứ, Airflow có thể kích hoạt backfill để bù lại các lần chạy bị bỏ lỡ, trừ khi catchup=False được cấu hình.
3Operator nào nên được sử dụng để thực thi một hàm Python trong một DAG Airflow?
Operator nào nên được sử dụng để thực thi một hàm Python trong một DAG Airflow?
Câu trả lời
PythonOperator cho phép thực thi một hàm Python callable trong một DAG Airflow. Hàm được truyền qua tham số python_callable và có thể nhận các đối số qua op_args (danh sách) hoặc op_kwargs (từ điển). PythonOperator là một trong những operator được sử dụng phổ biến nhất vì nó cung cấp sự linh hoạt cao để chạy mã Python tùy chỉnh.
Làm thế nào để xác định một phụ thuộc giữa hai task task_a và task_b để task_b chạy sau task_a?
Biểu thức cron nào đại diện cho việc thực thi hàng ngày vào nửa đêm?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
Data Lake - Kiến trúc và nạp dữ liệu
BigQuery cho Data Engineering
PostgreSQL - Quản trị
Data Modeling cho Data Engineering
Fivetran & Airbyte - Nạp dữ liệu
dbt - Kiến thức cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Mẫu ETL / ELT / ETLT
Apache Airflow - Nâng cao
Airflow + dbt - Điều phối pipeline
PySpark - Xử lý quy mô lớn
Google Pub/Sub - Streaming dữ liệu
Apache Beam & Dataflow
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Data Architecture hiện đại
Giám sát và Khả năng quan sát
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí