Data Engineering

การมอนิเตอร์และการสังเกตการณ์

Structured logging, metrics, alerting, SLA/SLO/SLI, การตรวจสอบคุณภาพข้อมูล, Great Expectations, Soda

20 คำถามสัมภาษณ์·
Senior
1

Structured logging ในบริบทของ data pipeline คืออะไร?

คำตอบ

Structured logging หมายถึงการส่งออก log ในรูปแบบที่สามารถ parse ได้ (JSON, key-value) แทนข้อความอิสระ ซึ่งช่วยให้กรอง ค้นหา และรวม log ได้ง่ายในเครื่องมือเช่น Cloud Logging, Elasticsearch หรือ Datadog ใน data pipeline จะช่วยให้การ debug ง่ายขึ้นมากโดยอนุญาตให้กรองตาม DAG, task_id, run_id หรือบริบททางธุรกิจอื่นๆ

2

ความแตกต่างระหว่าง SLI (Service Level Indicator) และ SLO (Service Level Objective) คืออะไร?

คำตอบ

SLI คือเมตริกที่วัดได้ซึ่งวัดปริมาณด้านคุณภาพบริการ (เช่น อัตราความสำเร็จของ job, latency ของ pipeline) SLO คือเป้าหมายที่กำหนดบนเมตริกนั้น (เช่น 99.5% ของ job ต้องสำเร็จ) SLA คือความผูกพันตามสัญญากับลูกค้าตาม SLO ภายใน ลำดับชั้นนี้ช่วยให้สามารถมอนิเตอร์ความน่าเชื่อถือได้อย่างเป็นรูปธรรมและทริกเกอร์ alert ก่อนละเมิด SLA

3

Expectation ใน Great Expectations คืออะไร?

คำตอบ

Expectation คือ assertion เชิงประกาศเกี่ยวกับข้อมูล เช่น expect_column_values_to_not_be_null หรือ expect_column_values_to_be_between Great Expectations สร้างเอกสารและผลการตรวจสอบที่ดำเนินการได้โดยอัตโนมัติ Expectation เหล่านี้ถูกจัดกลุ่มเป็น Suite ที่กำหนดสัญญาคุณภาพที่สมบูรณ์สำหรับ dataset

4

บทบาทหลักของ Soda ใน data pipeline คืออะไร?

5

Runbook ในบริบทของการจัดการเหตุการณ์ข้อมูลคืออะไร?

+17 คำถามสัมภาษณ์

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Junior
20 คำถาม

Git & GitHub - พื้นฐาน

Junior
20 คำถาม

Python ขั้นสูงสำหรับ Data Engineering

Junior
25 คำถาม

Docker - พื้นฐาน

Junior
25 คำถาม

Google Cloud Platform - พื้นฐาน

Junior
20 คำถาม

CI/CD และคุณภาพโค้ด

Mid-Level
20 คำถาม

Docker Compose

Mid-Level
20 คำถาม

FastAPI - Data API

Mid-Level
20 คำถาม

SQL ขั้นสูงสำหรับ Data Engineering

Mid-Level
20 คำถาม

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

Mid-Level
20 คำถาม

BigQuery สำหรับ Data Engineering

Mid-Level
20 คำถาม

PostgreSQL - การดูแลระบบ

Mid-Level
20 คำถาม

Data Modeling สำหรับ Data Engineering

Mid-Level
20 คำถาม

Fivetran & Airbyte - การนำเข้าข้อมูล

Mid-Level
20 คำถาม

dbt - พื้นฐาน

Mid-Level
20 คำถาม

Apache Airflow - พื้นฐาน

Mid-Level
20 คำถาม

Kubernetes - พื้นฐาน

Mid-Level
20 คำถาม

dbt - ฟีเจอร์ขั้นสูง

Senior
20 คำถาม

รูปแบบ ETL / ELT / ETLT

Senior
20 คำถาม

Apache Airflow - ขั้นสูง

Senior
20 คำถาม

Airflow + dbt - การจัดการ Pipeline

Senior
20 คำถาม

PySpark - การประมวลผลขนาดใหญ่

Senior
20 คำถาม

Google Pub/Sub - การสตรีมข้อมูล

Senior
20 คำถาม

Apache Beam & Dataflow

Senior
20 คำถาม

Kubernetes - Production และ Scaling

Senior
20 คำถาม

Terraform - Infrastructure as Code

Senior
20 คำถาม

ฐานข้อมูล NoSQL

Senior
20 คำถาม

Data Architecture สมัยใหม่

Senior
20 คำถาม

IAM และความปลอดภัยของข้อมูล

Senior
20 คำถาม

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป

เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์

เริ่มใช้ฟรี