
Apache Airflow - Nâng cao
Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring
1Vai trò chính của một Sensor trong Apache Airflow là gì?
Vai trò chính của một Sensor trong Apache Airflow là gì?
Câu trả lời
Sensor là một operator đặc biệt chờ một điều kiện được đáp ứng trước khi tiếp tục thực thi DAG. Nó kiểm tra định kỳ (poke) xem điều kiện đã được thỏa mãn chưa, chẳng hạn như sự xuất hiện của tệp, tính khả dụng của partition hoặc trạng thái của một task khác. Sensors rất cần thiết để điều phối các workflow phụ thuộc vào các sự kiện bên ngoài.
2Sự khác biệt giữa chế độ 'poke' và 'reschedule' cho một Sensor là gì?
Sự khác biệt giữa chế độ 'poke' và 'reschedule' cho một Sensor là gì?
Câu trả lời
Trong chế độ poke, Sensor liên tục chiếm một worker slot và kiểm tra điều kiện theo các khoảng thời gian đều đặn (poke_interval). Trong chế độ reschedule, Sensor giải phóng worker slot giữa các lần kiểm tra và tự lên lịch lại. Chế độ reschedule được khuyến nghị cho các điều kiện chạy lâu vì nó giải phóng tài nguyên cho các task khác.
3Sensor nào nên được sử dụng để chờ một partition Hive khả dụng?
Sensor nào nên được sử dụng để chờ một partition Hive khả dụng?
Câu trả lời
HivePartitionSensor kiểm tra sự tồn tại của một partition cụ thể trong một bảng Hive. Nó thường được sử dụng trong các data pipeline để đảm bảo dữ liệu nguồn có sẵn trước khi chạy các phép biến đổi. Nó chấp nhận các tham số như schema, table và partition để xác minh.
Làm thế nào để truyền dữ liệu giữa hai task Airflow?
Kích thước tối đa được khuyến nghị cho dữ liệu lưu trữ trong XCom là bao nhiêu?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
Data Lake - Kiến trúc và nạp dữ liệu
BigQuery cho Data Engineering
PostgreSQL - Quản trị
Data Modeling cho Data Engineering
Fivetran & Airbyte - Nạp dữ liệu
dbt - Kiến thức cơ bản
Apache Airflow - Cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Mẫu ETL / ELT / ETLT
Airflow + dbt - Điều phối pipeline
PySpark - Xử lý quy mô lớn
Google Pub/Sub - Streaming dữ liệu
Apache Beam & Dataflow
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Data Architecture hiện đại
Giám sát và Khả năng quan sát
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí