
การมอนิเตอร์และการสังเกตการณ์
Structured logging, metrics, alerting, SLA/SLO/SLI, การตรวจสอบคุณภาพข้อมูล, Great Expectations, Soda
1Structured logging ในบริบทของ data pipeline คืออะไร?
Structured logging ในบริบทของ data pipeline คืออะไร?
คำตอบ
Structured logging หมายถึงการส่งออก log ในรูปแบบที่สามารถ parse ได้ (JSON, key-value) แทนข้อความอิสระ ซึ่งช่วยให้กรอง ค้นหา และรวม log ได้ง่ายในเครื่องมือเช่น Cloud Logging, Elasticsearch หรือ Datadog ใน data pipeline จะช่วยให้การ debug ง่ายขึ้นมากโดยอนุญาตให้กรองตาม DAG, task_id, run_id หรือบริบททางธุรกิจอื่นๆ
2ความแตกต่างระหว่าง SLI (Service Level Indicator) และ SLO (Service Level Objective) คืออะไร?
ความแตกต่างระหว่าง SLI (Service Level Indicator) และ SLO (Service Level Objective) คืออะไร?
คำตอบ
SLI คือเมตริกที่วัดได้ซึ่งวัดปริมาณด้านคุณภาพบริการ (เช่น อัตราความสำเร็จของ job, latency ของ pipeline) SLO คือเป้าหมายที่กำหนดบนเมตริกนั้น (เช่น 99.5% ของ job ต้องสำเร็จ) SLA คือความผูกพันตามสัญญากับลูกค้าตาม SLO ภายใน ลำดับชั้นนี้ช่วยให้สามารถมอนิเตอร์ความน่าเชื่อถือได้อย่างเป็นรูปธรรมและทริกเกอร์ alert ก่อนละเมิด SLA
3Expectation ใน Great Expectations คืออะไร?
Expectation ใน Great Expectations คืออะไร?
คำตอบ
Expectation คือ assertion เชิงประกาศเกี่ยวกับข้อมูล เช่น expect_column_values_to_not_be_null หรือ expect_column_values_to_be_between Great Expectations สร้างเอกสารและผลการตรวจสอบที่ดำเนินการได้โดยอัตโนมัติ Expectation เหล่านี้ถูกจัดกลุ่มเป็น Suite ที่กำหนดสัญญาคุณภาพที่สมบูรณ์สำหรับ dataset
บทบาทหลักของ Soda ใน data pipeline คืออะไร?
Runbook ในบริบทของการจัดการเหตุการณ์ข้อมูลคืออะไร?
+17 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Engineering อื่นๆ
Linux & Shell - พื้นฐาน
Git & GitHub - พื้นฐาน
Python ขั้นสูงสำหรับ Data Engineering
Docker - พื้นฐาน
Google Cloud Platform - พื้นฐาน
CI/CD และคุณภาพโค้ด
Docker Compose
FastAPI - Data API
SQL ขั้นสูงสำหรับ Data Engineering
Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล
BigQuery สำหรับ Data Engineering
PostgreSQL - การดูแลระบบ
Data Modeling สำหรับ Data Engineering
Fivetran & Airbyte - การนำเข้าข้อมูล
dbt - พื้นฐาน
Apache Airflow - พื้นฐาน
Kubernetes - พื้นฐาน
dbt - ฟีเจอร์ขั้นสูง
รูปแบบ ETL / ELT / ETLT
Apache Airflow - ขั้นสูง
Airflow + dbt - การจัดการ Pipeline
PySpark - การประมวลผลขนาดใหญ่
Google Pub/Sub - การสตรีมข้อมูล
Apache Beam & Dataflow
Kubernetes - Production และ Scaling
Terraform - Infrastructure as Code
ฐานข้อมูล NoSQL
Data Architecture สมัยใหม่
IAM และความปลอดภัยของข้อมูล
เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี