Data Engineering

Giám sát và Khả năng quan sát

Structured logging, metrics, alerting, SLA/SLO/SLI, kiểm tra chất lượng dữ liệu, Great Expectations, Soda

20 câu hỏi phỏng vấn·
Senior
1

Structured logging trong bối cảnh data pipeline là gì?

Câu trả lời

Structured logging có nghĩa là phát log ở định dạng có thể phân tích cú pháp (JSON, key-value) thay vì văn bản tự do. Điều này cho phép dễ dàng lọc, tìm kiếm và tổng hợp log trong các công cụ như Cloud Logging, Elasticsearch hoặc Datadog. Trong một data pipeline, điều này giúp debug dễ dàng hơn nhiều bằng cách cho phép lọc theo DAG, task_id, run_id hoặc bất kỳ ngữ cảnh nghiệp vụ nào.

2

Sự khác biệt giữa SLI (Service Level Indicator) và SLO (Service Level Objective) là gì?

Câu trả lời

SLI là một số liệu có thể đo lường định lượng một khía cạnh chất lượng dịch vụ (ví dụ: tỷ lệ thành công của job, độ trễ pipeline). SLO là mục tiêu được xác định trên số liệu đó (ví dụ: 99.5% job phải thành công). SLA là cam kết hợp đồng với khách hàng dựa trên SLO nội bộ. Hệ thống phân cấp này cho phép giám sát độ tin cậy một cách khách quan và kích hoạt cảnh báo trước khi vi phạm SLA.

3

Expectation trong Great Expectations là gì?

Câu trả lời

Expectation là một khẳng định khai báo về dữ liệu, như expect_column_values_to_not_be_null hoặc expect_column_values_to_be_between. Great Expectations tự động tạo tài liệu và kết quả xác thực có thể thực thi. Các Expectation này được nhóm thành các Suite định nghĩa hợp đồng chất lượng hoàn chỉnh cho một dataset.

4

Vai trò chính của Soda trong một data pipeline là gì?

5

Runbook trong bối cảnh quản lý sự cố dữ liệu là gì?

+17 câu hỏi phỏng vấn

Các chủ đề phỏng vấn Data Engineering khác

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí