Question 1

หลักการพื้นฐานที่ควรใช้เมื่อกำหนดสิทธิ์ IAM ใน GCP คืออะไร?

Accepted Answer

หลักการสิทธิ์น้อยที่สุด (least privilege) หมายถึงการให้สิทธิ์เฉพาะที่จำเป็นอย่างเคร่งครัดในการทำงานเท่านั้น ใน Data Engineering หมายความว่า pipeline ควรเข้าถึงเฉพาะ bucket, dataset และ table ที่จำเป็นจริงๆ เท่านั้น หลักการนี้ลดพื้นผิวการโจมตีและจำกัดความเสียหายที่อาจเกิดขึ้นหาก service account ถูกบุกรุก

Question 2

ความแตกต่างระหว่าง service account และบัญชีผู้ใช้ใน GCP คืออะไร?

Accepted Answer

Service account คือตัวตนที่ออกแบบสำหรับแอปพลิเคชันและบริการ ในขณะที่บัญชีผู้ใช้แทนบุคคล Service account ยืนยันตัวตนโดยใช้คีย์ JSON หรือ Workload Identity ไม่มีรหัสผ่าน และออกแบบมาสำหรับการทำงานอัตโนมัติ ใน Data Engineering แต่ละ pipeline ควรมี service account ของตัวเองพร้อมสิทธิ์เฉพาะ

Question 3

ลำดับชั้นของบทบาท IAM ใน GCP จากที่มีสิทธิ์น้อยที่สุดไปยังมากที่สุดคืออะไร?

Accepted Answer

ลำดับชั้นของบทบาท IAM เริ่มจาก Viewer (อ่านอย่างเดียว) ไปยัง Editor (อ่าน/เขียนโดยไม่จัดการ IAM) ไปยัง Owner (ควบคุมเต็มรวมถึง IAM และการเรียกเก็บเงิน) สำหรับ pipeline ข้อมูล แนะนำให้ใช้บทบาทที่กำหนดล่วงหน้าที่ละเอียดเช่น BigQuery Data Viewer หรือ Storage Object Creator แทนบทบาทดั้งเดิมที่กว้างเกินไปเหล่านี้

IAM และความปลอดภัยของข้อมูล

หลักการพื้นฐานที่ควรใช้เมื่อกำหนดสิทธิ์ IAM ใน GCP คืออะไร?

คำตอบ

ความแตกต่างระหว่าง service account และบัญชีผู้ใช้ใน GCP คืออะไร?

คำตอบ

ลำดับชั้นของบทบาท IAM ใน GCP จากที่มีสิทธิ์น้อยที่สุดไปยังมากที่สุดคืออะไร?

คำตอบ

ทำไมจึงควรหลีกเลี่ยงคีย์ service account แบบ JSON ในสภาพแวดล้อมการผลิต GCP?

ความแตกต่างระหว่างการเข้ารหัส at rest และการเข้ารหัส in transit คืออะไร?

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Git & GitHub - พื้นฐาน

Python ขั้นสูงสำหรับ Data Engineering

Docker - พื้นฐาน

Google Cloud Platform - พื้นฐาน

CI/CD และคุณภาพโค้ด

Docker Compose

FastAPI - Data API

SQL ขั้นสูงสำหรับ Data Engineering

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

BigQuery สำหรับ Data Engineering

PostgreSQL - การดูแลระบบ

Data Modeling สำหรับ Data Engineering

Fivetran & Airbyte - การนำเข้าข้อมูล

dbt - พื้นฐาน

Apache Airflow - พื้นฐาน

Kubernetes - พื้นฐาน

dbt - ฟีเจอร์ขั้นสูง

รูปแบบ ETL / ELT / ETLT

Apache Airflow - ขั้นสูง

Airflow + dbt - การจัดการ Pipeline

PySpark - การประมวลผลขนาดใหญ่

Google Pub/Sub - การสตรีมข้อมูล

Apache Beam & Dataflow

Kubernetes - Production และ Scaling

Terraform - Infrastructure as Code

ฐานข้อมูล NoSQL

Data Architecture สมัยใหม่

การมอนิเตอร์และการสังเกตการณ์

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป