Question 1

Який фундаментальний принцип слід застосовувати при призначенні дозволів IAM у GCP?

Accepted Answer

Принцип найменших привілеїв (least privilege) полягає у наданні лише тих дозволів, які суворо необхідні для виконання завдання. У Data Engineering це означає, що pipeline повинен мати доступ лише до bucket, dataset і таблиць, які йому дійсно потрібні. Цей принцип зменшує поверхню атаки та обмежує потенційну шкоду у разі компрометації service account.

Question 2

У чому різниця між service account та обліковим записом користувача в GCP?

Accepted Answer

Service account — це ідентичність, призначена для додатків та сервісів, тоді як обліковий запис користувача представляє людину. Service accounts автентифікуються за допомогою JSON-ключів або Workload Identity, не мають пароля та призначені для автоматизації. У Data Engineering кожен pipeline повинен мати власний service account з конкретними дозволами.

Question 3

Яка ієрархія ролей IAM у GCP, від найменш до найбільш привілейованої?

Accepted Answer

Ієрархія ролей IAM іде від Viewer (тільки читання) до Editor (читання/запис без керування IAM) і Owner (повний контроль, включаючи IAM та білінг). Для конвеєрів даних рекомендується використовувати деталізовані попередньо визначені ролі, такі як BigQuery Data Viewer або Storage Object Creator, замість цих надто широких примітивних ролей.

IAM та безпека даних

Який фундаментальний принцип слід застосовувати при призначенні дозволів IAM у GCP?

Відповідь

У чому різниця між service account та обліковим записом користувача в GCP?

Відповідь

Яка ієрархія ролей IAM у GCP, від найменш до найбільш привілейованої?

Відповідь

Чому слід уникати JSON-ключів service account у виробничому середовищі GCP?

У чому різниця між шифруванням at rest та шифруванням in transit?

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Git & GitHub - Основи

Просунутий Python для Data Engineering

Docker - Основи

Google Cloud Platform - Основи

CI/CD та якість коду

Docker Compose

FastAPI - API даних

Просунутий SQL для Data Engineering

Data Lake - Архітектура та завантаження даних

BigQuery для Data Engineering

PostgreSQL - Адміністрування

Data Modeling для Data Engineering

Fivetran & Airbyte - Завантаження даних

dbt - Основи

Apache Airflow - Основи

Kubernetes - Основи

dbt - Розширені можливості

Патерни ETL / ELT / ETLT

Apache Airflow - Просунутий

Airflow + dbt - Оркестрація пайплайнів

PySpark - Великомасштабна обробка

Google Pub/Sub - Стрімінг даних

Apache Beam & Dataflow

Kubernetes - Продакшн та масштабування

Terraform - Infrastructure as Code

Бази даних NoSQL

Сучасна Data Architecture

Моніторинг та спостережуваність

Опануй Data Engineering для наступної співбесіди