Question 1

¿Qué arquitectura de almacenamiento utiliza BigQuery?

Accepted Answer

BigQuery utiliza una arquitectura serverless con almacenamiento columnar llamado Capacitor. Esta arquitectura separa el almacenamiento y el compute, permitiendo escalado independiente y facturación separada. El almacenamiento columnar está optimizado para consultas analíticas ya que permite leer solo las columnas necesarias, reduciendo significativamente el I/O.

Question 2

¿Cuál es la principal ventaja del partitioning de tablas en BigQuery?

Accepted Answer

El partitioning divide una tabla grande en segmentos más pequeños basados en una columna (generalmente una fecha). Durante las consultas, BigQuery puede omitir las particiones irrelevantes (partition pruning), reduciendo la cantidad de datos escaneados. Esto mejora el rendimiento y reduce los costos ya que BigQuery factura según el volumen de datos procesados.

Question 3

¿Qué tipos de partitioning están disponibles en BigQuery?

Accepted Answer

BigQuery soporta tres tipos de partitioning: por columna DATE o TIMESTAMP (el más común), por rango de enteros (INTEGER RANGE), y por tiempo de ingesta (_PARTITIONTIME). El partitioning por fecha se recomienda para datos temporales ya que permite un partition pruning eficiente con filtros de fecha.

BigQuery para Data Engineering

¿Qué arquitectura de almacenamiento utiliza BigQuery?

Respuesta

¿Cuál es la principal ventaja del partitioning de tablas en BigQuery?

Respuesta

¿Qué tipos de partitioning están disponibles en BigQuery?

Respuesta

¿Cuál es la diferencia entre partitioning y clustering en BigQuery?

¿Cómo optimizar los costos de consultas en BigQuery?

Otros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avanzado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD y calidad de código

Docker Compose

FastAPI - APIs de datos

SQL avanzado para Data Engineering

Data Lake - Arquitectura e ingesta

PostgreSQL - Administración

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingesta de datos

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Funcionalidades avanzadas

Patrones ETL / ELT / ETLT

Apache Airflow - Avanzado

Airflow + dbt - Orquestación de pipelines

PySpark - Procesamiento a gran escala

Google Pub/Sub - Streaming de datos

Apache Beam & Dataflow

Kubernetes - Producción y escalado

Terraform - Infrastructure as Code

Bases de datos NoSQL

Arquitectura Data moderna

Monitoreo y observabilidad

IAM y seguridad de datos

Domina Data Engineering para tu próxima entrevista