Data Analytics

dbt - Kiến thức cơ bản

Dự án dbt, models, sources, refs, tests, tài liệu, materializations, seeds

20 câu hỏi phỏng vấn·
Mid-Level
1

dbt (data build tool) là gì?

Câu trả lời

dbt là một công cụ chuyển đổi dữ liệu cho phép các nhà phân tích và kỹ sư dữ liệu viết các chuyển đổi bằng SQL hoặc Python trực tiếp trong data warehouse. Nó tuân theo cách tiếp cận ELT (Extract, Load, Transform) trong đó dữ liệu được tải vào warehouse trước rồi được chuyển đổi tại chỗ, không giống như ETL truyền thống chuyển đổi trước khi tải. dbt tự động quản lý các phụ thuộc giữa các model, test và tài liệu.

2

Cấu trúc cơ bản của một dự án dbt là gì?

Câu trả lời

Một dự án dbt được tổ chức xung quanh các thư mục chính: models/ chứa các file SQL định nghĩa các phép chuyển đổi, seeds/ chứa các file CSV được tải dưới dạng bảng, tests/ lưu trữ các test tùy chỉnh, macros/ có các hàm Jinja có thể tái sử dụng, và snapshots/ giữ các bản chụp trạng thái. File dbt_project.yml ở thư mục gốc cấu hình dự án (tên, phiên bản, materialization mặc định), trong khi profiles.yml định nghĩa các kết nối đến warehouse.

3

Model trong dbt là gì?

Câu trả lời

Một dbt model là một file SQL chứa câu lệnh SELECT định nghĩa một phép chuyển đổi dữ liệu. Mỗi model tương ứng với một file .sql trong thư mục models/ và tạo ra một bảng hoặc view trong data warehouse khi được thực thi. Các model có thể tham chiếu các model khác thông qua hàm ref(), tạo ra một đồ thị phụ thuộc (DAG) mà dbt thực thi theo đúng thứ tự.

4

Mục đích của hàm ref() trong dbt là gì?

5

Source trong dbt là gì và làm thế nào để khai báo nó?

+17 câu hỏi phỏng vấn

Nắm vững Data Analytics cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí