Data Engineering

Apache Airflow - พื้นฐาน

DAG, operator (Bash, Python, SQL), การกำหนดเวลา, ความสัมพันธ์ของ task, Airflow UI, connection, variable, trigger rule

20 คำถามสัมภาษณ์·
Mid-Level
1

DAG ใน Apache Airflow คืออะไร?

คำตอบ

DAG (Directed Acyclic Graph) คือชุดของ task ที่จัดระเบียบด้วย dependency และความสัมพันธ์ แสดงถึง workflow ที่สมบูรณ์ ลักษณะ acyclic หมายถึงไม่สามารถมี loop ใน dependency graph ได้ ซึ่งรับประกันว่าแต่ละ task จะถูกดำเนินการเพียงครั้งเดียวต่อ run DAG กำหนดว่า task ควรทำงานเมื่อใดและอย่างไร แต่ไม่ใช่ว่าทำอะไรในเชิงรูปธรรม

2

พารามิเตอร์ DAG ใดที่กำหนดวันที่ scheduler เริ่มกำหนดเวลาการรัน?

คำตอบ

พารามิเตอร์ start_date กำหนดวันที่ Airflow เริ่มกำหนดเวลาการรัน DAG วันที่นี้ใช้ร่วมกับ schedule_interval เพื่อกำหนด data intervals จุดสำคัญ: หาก start_date อยู่ในอดีต Airflow อาจทริกเกอร์ backfill เพื่อตามทันการรันที่พลาดไป เว้นแต่จะกำหนด catchup=False

3

ควรใช้ operator ใดในการดำเนินการฟังก์ชัน Python ใน Airflow DAG?

คำตอบ

PythonOperator ช่วยให้สามารถดำเนินการฟังก์ชัน Python callable ใน Airflow DAG ฟังก์ชันจะถูกส่งผ่านพารามิเตอร์ python_callable และสามารถรับ argument ผ่าน op_args (รายการ) หรือ op_kwargs (พจนานุกรม) PythonOperator เป็นหนึ่งใน operator ที่ใช้บ่อยที่สุดเพราะให้ความยืดหยุ่นสูงในการรันโค้ด Python ที่กำหนดเอง

4

จะกำหนด dependency ระหว่างสอง task คือ task_a และ task_b เพื่อให้ task_b รันหลังจาก task_a ได้อย่างไร?

5

นิพจน์ cron ใดที่แสดงถึงการดำเนินการรายวันในเวลาเที่ยงคืน?

+17 คำถามสัมภาษณ์

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Junior
20 คำถาม

Git & GitHub - พื้นฐาน

Junior
20 คำถาม

Python ขั้นสูงสำหรับ Data Engineering

Junior
25 คำถาม

Docker - พื้นฐาน

Junior
25 คำถาม

Google Cloud Platform - พื้นฐาน

Junior
20 คำถาม

CI/CD และคุณภาพโค้ด

Mid-Level
20 คำถาม

Docker Compose

Mid-Level
20 คำถาม

FastAPI - Data API

Mid-Level
20 คำถาม

SQL ขั้นสูงสำหรับ Data Engineering

Mid-Level
20 คำถาม

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

Mid-Level
20 คำถาม

BigQuery สำหรับ Data Engineering

Mid-Level
20 คำถาม

PostgreSQL - การดูแลระบบ

Mid-Level
20 คำถาม

Data Modeling สำหรับ Data Engineering

Mid-Level
20 คำถาม

Fivetran & Airbyte - การนำเข้าข้อมูล

Mid-Level
20 คำถาม

dbt - พื้นฐาน

Mid-Level
20 คำถาม

Kubernetes - พื้นฐาน

Mid-Level
20 คำถาม

dbt - ฟีเจอร์ขั้นสูง

Senior
20 คำถาม

รูปแบบ ETL / ELT / ETLT

Senior
20 คำถาม

Apache Airflow - ขั้นสูง

Senior
20 คำถาม

Airflow + dbt - การจัดการ Pipeline

Senior
20 คำถาม

PySpark - การประมวลผลขนาดใหญ่

Senior
20 คำถาม

Google Pub/Sub - การสตรีมข้อมูล

Senior
20 คำถาม

Apache Beam & Dataflow

Senior
20 คำถาม

Kubernetes - Production และ Scaling

Senior
20 คำถาม

Terraform - Infrastructure as Code

Senior
20 คำถาม

ฐานข้อมูล NoSQL

Senior
20 คำถาม

Data Architecture สมัยใหม่

Senior
20 คำถาม

การมอนิเตอร์และการสังเกตการณ์

Senior
20 คำถาม

IAM และความปลอดภัยของข้อมูล

Senior
20 คำถาม

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป

เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์

เริ่มใช้ฟรี