
dbt - Kiến thức cơ bản
Dự án dbt, models, sources, refs, tests, tài liệu, materializations (table, view, incremental), seeds
1dbt (data build tool) là gì?
dbt (data build tool) là gì?
Câu trả lời
dbt là một công cụ biến đổi dữ liệu cho phép viết các biến đổi bằng SQL và thực thi chúng trong data warehouse. Nó áp dụng các nguyên tắc kỹ thuật phần mềm (quản lý phiên bản, tests, tài liệu) vào công việc biến đổi dữ liệu. dbt không xử lý việc trích xuất hoặc tải (E và L của ELT), chỉ thực hiện biến đổi.
2Cấu trúc cơ bản của một dự án dbt là gì?
Cấu trúc cơ bản của một dự án dbt là gì?
Câu trả lời
Một dự án dbt chứa tệp dbt_project.yml ở thư mục gốc xác định cấu hình dự án. Các thư mục chính là models (chứa các tệp SQL), tests cho các tests tùy chỉnh, macros cho Jinja macros, seeds cho các tệp CSV, và snapshots cho việc chụp dữ liệu lịch sử. Tệp profiles.yml (thường nằm ngoài dự án) xác định các kết nối tới warehouse.
3Vai trò của tệp profiles.yml trong dbt là gì?
Vai trò của tệp profiles.yml trong dbt là gì?
Câu trả lời
Tệp profiles.yml chứa thông tin kết nối tới các data warehouse (BigQuery, Snowflake, Redshift, PostgreSQL, v.v.). Nó thường được lưu trữ trong thư mục ~/.dbt/ chứ không phải trong dự án để tránh versioning các credentials nhạy cảm. Mỗi profile có thể có nhiều target (dev, prod) cho phép chuyển đổi dễ dàng giữa các môi trường.
Model trong dbt là gì?
Vai trò của hàm ref() trong dbt là gì?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
Data Lake - Kiến trúc và nạp dữ liệu
BigQuery cho Data Engineering
PostgreSQL - Quản trị
Data Modeling cho Data Engineering
Fivetran & Airbyte - Nạp dữ liệu
Apache Airflow - Cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Mẫu ETL / ELT / ETLT
Apache Airflow - Nâng cao
Airflow + dbt - Điều phối pipeline
PySpark - Xử lý quy mô lớn
Google Pub/Sub - Streaming dữ liệu
Apache Beam & Dataflow
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Data Architecture hiện đại
Giám sát và Khả năng quan sát
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí