Data Engineering

BigQuery para Data Engineering

Arquitectura serverless, partitioning, clustering, costos, UDFs, federated queries, scheduled queries, materialized views

20 preguntas de entrevista·
Mid-Level
1

¿Qué arquitectura de almacenamiento utiliza BigQuery?

Respuesta

BigQuery utiliza una arquitectura serverless con almacenamiento columnar llamado Capacitor. Esta arquitectura separa el almacenamiento y el compute, permitiendo escalado independiente y facturación separada. El almacenamiento columnar está optimizado para consultas analíticas ya que permite leer solo las columnas necesarias, reduciendo significativamente el I/O.

2

¿Cuál es la principal ventaja del partitioning de tablas en BigQuery?

Respuesta

El partitioning divide una tabla grande en segmentos más pequeños basados en una columna (generalmente una fecha). Durante las consultas, BigQuery puede omitir las particiones irrelevantes (partition pruning), reduciendo la cantidad de datos escaneados. Esto mejora el rendimiento y reduce los costos ya que BigQuery factura según el volumen de datos procesados.

3

¿Qué tipos de partitioning están disponibles en BigQuery?

Respuesta

BigQuery soporta tres tipos de partitioning: por columna DATE o TIMESTAMP (el más común), por rango de enteros (INTEGER RANGE), y por tiempo de ingesta (_PARTITIONTIME). El partitioning por fecha se recomienda para datos temporales ya que permite un partition pruning eficiente con filtros de fecha.

4

¿Cuál es la diferencia entre partitioning y clustering en BigQuery?

5

¿Cómo optimizar los costos de consultas en BigQuery?

+17 preguntas de entrevista

Domina Data Engineering para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis