Question 1

Structured logging trong bối cảnh data pipeline là gì?

Accepted Answer

Structured logging có nghĩa là phát log ở định dạng có thể phân tích cú pháp (JSON, key-value) thay vì văn bản tự do. Điều này cho phép dễ dàng lọc, tìm kiếm và tổng hợp log trong các công cụ như Cloud Logging, Elasticsearch hoặc Datadog. Trong một data pipeline, điều này giúp debug dễ dàng hơn nhiều bằng cách cho phép lọc theo DAG, task_id, run_id hoặc bất kỳ ngữ cảnh nghiệp vụ nào.

Question 2

Sự khác biệt giữa SLI (Service Level Indicator) và SLO (Service Level Objective) là gì?

Accepted Answer

SLI là một số liệu có thể đo lường định lượng một khía cạnh chất lượng dịch vụ (ví dụ: tỷ lệ thành công của job, độ trễ pipeline). SLO là mục tiêu được xác định trên số liệu đó (ví dụ: 99.5% job phải thành công). SLA là cam kết hợp đồng với khách hàng dựa trên SLO nội bộ. Hệ thống phân cấp này cho phép giám sát độ tin cậy một cách khách quan và kích hoạt cảnh báo trước khi vi phạm SLA.

Question 3

Expectation trong Great Expectations là gì?

Accepted Answer

Expectation là một khẳng định khai báo về dữ liệu, như expect_column_values_to_not_be_null hoặc expect_column_values_to_be_between. Great Expectations tự động tạo tài liệu và kết quả xác thực có thể thực thi. Các Expectation này được nhóm thành các Suite định nghĩa hợp đồng chất lượng hoàn chỉnh cho một dataset.

Giám sát và Khả năng quan sát

Structured logging trong bối cảnh data pipeline là gì?

Câu trả lời

Sự khác biệt giữa SLI (Service Level Indicator) và SLO (Service Level Objective) là gì?

Câu trả lời

Expectation trong Great Expectations là gì?

Câu trả lời

Vai trò chính của Soda trong một data pipeline là gì?

Runbook trong bối cảnh quản lý sự cố dữ liệu là gì?

Các chủ đề phỏng vấn Data Engineering khác

Linux & Shell - Cơ bản

Git & GitHub - Kiến thức cơ bản

Python nâng cao cho Data Engineering

Docker - Cơ bản

Google Cloud Platform - Cơ bản

CI/CD và chất lượng mã

Docker Compose

FastAPI - API dữ liệu

SQL nâng cao cho Data Engineering

Data Lake - Kiến trúc và nạp dữ liệu

BigQuery cho Data Engineering

PostgreSQL - Quản trị

Data Modeling cho Data Engineering

Fivetran & Airbyte - Nạp dữ liệu

dbt - Kiến thức cơ bản

Apache Airflow - Cơ bản

Kubernetes - Cơ Bản

dbt - Tính năng nâng cao

Mẫu ETL / ELT / ETLT

Apache Airflow - Nâng cao

Airflow + dbt - Điều phối pipeline

PySpark - Xử lý quy mô lớn

Google Pub/Sub - Streaming dữ liệu

Apache Beam & Dataflow

Kubernetes - Production và Scaling

Terraform - Infrastructure as Code

Cơ sở dữ liệu NoSQL

Data Architecture hiện đại

IAM và Bảo mật Dữ liệu

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo