Question 1

¿Cuál es el principio fundamental a aplicar al asignar permisos IAM en GCP?

Accepted Answer

El principio de privilegio mínimo (least privilege) consiste en otorgar solo los permisos estrictamente necesarios para realizar una tarea. En Data Engineering, esto significa que un pipeline solo debería tener acceso a los buckets, datasets y tablas que realmente necesita. Este principio reduce la superficie de ataque y limita los daños potenciales en caso de compromiso de un service account.

Question 2

¿Cuál es la diferencia entre un service account y una cuenta de usuario en GCP?

Accepted Answer

Un service account es una identidad diseñada para aplicaciones y servicios, mientras que una cuenta de usuario representa a una persona. Los service accounts se autentican usando claves JSON o Workload Identity, no tienen contraseña y están diseñados para automatización. En Data Engineering, cada pipeline debería tener su propio service account con permisos específicos.

Question 3

¿Cuál es la jerarquía de roles IAM en GCP, del menos al más permisivo?

Accepted Answer

La jerarquía de roles IAM va de Viewer (solo lectura) a Editor (lectura/escritura sin gestión IAM) y Owner (control total incluyendo IAM y facturación). Para pipelines de datos, se recomienda usar roles predefinidos granulares como BigQuery Data Viewer o Storage Object Creator en lugar de estos roles primitivos demasiado amplios.

IAM y seguridad de datos

¿Cuál es el principio fundamental a aplicar al asignar permisos IAM en GCP?

Respuesta

¿Cuál es la diferencia entre un service account y una cuenta de usuario en GCP?

Respuesta

¿Cuál es la jerarquía de roles IAM en GCP, del menos al más permisivo?

Respuesta

¿Por qué se deben evitar las claves JSON de service account en un entorno de producción GCP?

¿Cuál es la diferencia entre el cifrado at rest y el cifrado in transit?

Otros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avanzado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD y calidad de código

Docker Compose

FastAPI - APIs de datos

SQL avanzado para Data Engineering

Data Lake - Arquitectura e ingesta

BigQuery para Data Engineering

PostgreSQL - Administración

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingesta de datos

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Funcionalidades avanzadas

Patrones ETL / ELT / ETLT

Apache Airflow - Avanzado

Airflow + dbt - Orquestación de pipelines

PySpark - Procesamiento a gran escala

Google Pub/Sub - Streaming de datos

Apache Beam & Dataflow

Kubernetes - Producción y escalado

Terraform - Infrastructure as Code

Bases de datos NoSQL

Arquitectura Data moderna

Monitoreo y observabilidad

Domina Data Engineering para tu próxima entrevista