
Giám sát và Khả năng quan sát
Structured logging, metrics, alerting, SLA/SLO/SLI, kiểm tra chất lượng dữ liệu, Great Expectations, Soda
1Structured logging trong bối cảnh data pipeline là gì?
Structured logging trong bối cảnh data pipeline là gì?
Câu trả lời
Structured logging có nghĩa là phát log ở định dạng có thể phân tích cú pháp (JSON, key-value) thay vì văn bản tự do. Điều này cho phép dễ dàng lọc, tìm kiếm và tổng hợp log trong các công cụ như Cloud Logging, Elasticsearch hoặc Datadog. Trong một data pipeline, điều này giúp debug dễ dàng hơn nhiều bằng cách cho phép lọc theo DAG, task_id, run_id hoặc bất kỳ ngữ cảnh nghiệp vụ nào.
2Sự khác biệt giữa SLI (Service Level Indicator) và SLO (Service Level Objective) là gì?
Sự khác biệt giữa SLI (Service Level Indicator) và SLO (Service Level Objective) là gì?
Câu trả lời
SLI là một số liệu có thể đo lường định lượng một khía cạnh chất lượng dịch vụ (ví dụ: tỷ lệ thành công của job, độ trễ pipeline). SLO là mục tiêu được xác định trên số liệu đó (ví dụ: 99.5% job phải thành công). SLA là cam kết hợp đồng với khách hàng dựa trên SLO nội bộ. Hệ thống phân cấp này cho phép giám sát độ tin cậy một cách khách quan và kích hoạt cảnh báo trước khi vi phạm SLA.
3Expectation trong Great Expectations là gì?
Expectation trong Great Expectations là gì?
Câu trả lời
Expectation là một khẳng định khai báo về dữ liệu, như expect_column_values_to_not_be_null hoặc expect_column_values_to_be_between. Great Expectations tự động tạo tài liệu và kết quả xác thực có thể thực thi. Các Expectation này được nhóm thành các Suite định nghĩa hợp đồng chất lượng hoàn chỉnh cho một dataset.
Vai trò chính của Soda trong một data pipeline là gì?
Runbook trong bối cảnh quản lý sự cố dữ liệu là gì?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
Data Lake - Kiến trúc và nạp dữ liệu
BigQuery cho Data Engineering
PostgreSQL - Quản trị
Data Modeling cho Data Engineering
Fivetran & Airbyte - Nạp dữ liệu
dbt - Kiến thức cơ bản
Apache Airflow - Cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Mẫu ETL / ELT / ETLT
Apache Airflow - Nâng cao
Airflow + dbt - Điều phối pipeline
PySpark - Xử lý quy mô lớn
Google Pub/Sub - Streaming dữ liệu
Apache Beam & Dataflow
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Data Architecture hiện đại
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí