
BigQuery para Data Engineering
Arquitetura serverless, partitioning, clustering, custos, UDFs, federated queries, scheduled queries, materialized views
1Qual arquitetura de armazenamento o BigQuery utiliza?
Qual arquitetura de armazenamento o BigQuery utiliza?
Resposta
O BigQuery utiliza uma arquitetura serverless com armazenamento colunar chamado Capacitor. Essa arquitetura separa armazenamento e compute, permitindo escalonamento independente e cobrança separada. O armazenamento colunar é otimizado para consultas analíticas, pois permite ler apenas as colunas necessárias, reduzindo significativamente o I/O.
2Qual a principal vantagem do partitioning de tabelas no BigQuery?
Qual a principal vantagem do partitioning de tabelas no BigQuery?
Resposta
O partitioning divide uma tabela grande em segmentos menores baseados em uma coluna (geralmente uma data). Durante as consultas, o BigQuery pode ignorar partições irrelevantes (partition pruning), reduzindo a quantidade de dados escaneados. Isso melhora a performance e reduz os custos, pois o BigQuery cobra com base no volume de dados processados.
3Quais tipos de partitioning estão disponíveis no BigQuery?
Quais tipos de partitioning estão disponíveis no BigQuery?
Resposta
O BigQuery suporta três tipos de partitioning: por coluna DATE ou TIMESTAMP (o mais comum), por intervalo de inteiros (INTEGER RANGE), e por horário de ingestão (_PARTITIONTIME). O partitioning por data é recomendado para dados temporais, pois permite um partition pruning eficiente em filtros de data.
Qual a diferença entre partitioning e clustering no BigQuery?
Como otimizar os custos de consultas no BigQuery?
+17 perguntas de entrevista
Outros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avançado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD e qualidade de código
Docker Compose
FastAPI - APIs de dados
SQL avançado para Data Engineering
Data Lake - Arquitetura e ingestão
PostgreSQL - Administração
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingestão de dados
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Recursos avançados
Padrões ETL / ELT / ETLT
Apache Airflow - Avançado
Airflow + dbt - Orquestração de pipelines
PySpark - Processamento em grande escala
Google Pub/Sub - Streaming de dados
Apache Beam & Dataflow
Kubernetes - Produção e escalabilidade
Terraform - Infrastructure as Code
Bancos de dados NoSQL
Arquitetura Data moderna
Monitoramento e observabilidade
IAM e segurança de dados
Domine Data Engineering para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis