
BigQuery para Data Engineering
Arquitectura serverless, partitioning, clustering, costos, UDFs, federated queries, scheduled queries, materialized views
1¿Qué arquitectura de almacenamiento utiliza BigQuery?
¿Qué arquitectura de almacenamiento utiliza BigQuery?
Respuesta
BigQuery utiliza una arquitectura serverless con almacenamiento columnar llamado Capacitor. Esta arquitectura separa el almacenamiento y el compute, permitiendo escalado independiente y facturación separada. El almacenamiento columnar está optimizado para consultas analíticas ya que permite leer solo las columnas necesarias, reduciendo significativamente el I/O.
2¿Cuál es la principal ventaja del partitioning de tablas en BigQuery?
¿Cuál es la principal ventaja del partitioning de tablas en BigQuery?
Respuesta
El partitioning divide una tabla grande en segmentos más pequeños basados en una columna (generalmente una fecha). Durante las consultas, BigQuery puede omitir las particiones irrelevantes (partition pruning), reduciendo la cantidad de datos escaneados. Esto mejora el rendimiento y reduce los costos ya que BigQuery factura según el volumen de datos procesados.
3¿Qué tipos de partitioning están disponibles en BigQuery?
¿Qué tipos de partitioning están disponibles en BigQuery?
Respuesta
BigQuery soporta tres tipos de partitioning: por columna DATE o TIMESTAMP (el más común), por rango de enteros (INTEGER RANGE), y por tiempo de ingesta (_PARTITIONTIME). El partitioning por fecha se recomienda para datos temporales ya que permite un partition pruning eficiente con filtros de fecha.
¿Cuál es la diferencia entre partitioning y clustering en BigQuery?
¿Cómo optimizar los costos de consultas en BigQuery?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
PostgreSQL - Administración
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingesta de datos
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Apache Airflow - Avanzado
Airflow + dbt - Orquestación de pipelines
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis