Question 1

Qual arquitetura de armazenamento o BigQuery utiliza?

Accepted Answer

O BigQuery utiliza uma arquitetura serverless com armazenamento colunar chamado Capacitor. Essa arquitetura separa armazenamento e compute, permitindo escalonamento independente e cobrança separada. O armazenamento colunar é otimizado para consultas analíticas, pois permite ler apenas as colunas necessárias, reduzindo significativamente o I/O.

Question 2

Qual a principal vantagem do partitioning de tabelas no BigQuery?

Accepted Answer

O partitioning divide uma tabela grande em segmentos menores baseados em uma coluna (geralmente uma data). Durante as consultas, o BigQuery pode ignorar partições irrelevantes (partition pruning), reduzindo a quantidade de dados escaneados. Isso melhora a performance e reduz os custos, pois o BigQuery cobra com base no volume de dados processados.

Question 3

Quais tipos de partitioning estão disponíveis no BigQuery?

Accepted Answer

O BigQuery suporta três tipos de partitioning: por coluna DATE ou TIMESTAMP (o mais comum), por intervalo de inteiros (INTEGER RANGE), e por horário de ingestão (_PARTITIONTIME). O partitioning por data é recomendado para dados temporais, pois permite um partition pruning eficiente em filtros de data.

BigQuery para Data Engineering

Qual arquitetura de armazenamento o BigQuery utiliza?

Resposta

Qual a principal vantagem do partitioning de tabelas no BigQuery?

Resposta

Quais tipos de partitioning estão disponíveis no BigQuery?

Resposta

Qual a diferença entre partitioning e clustering no BigQuery?

Como otimizar os custos de consultas no BigQuery?

Outros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avançado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD e qualidade de código

Docker Compose

FastAPI - APIs de dados

SQL avançado para Data Engineering

Data Lake - Arquitetura e ingestão

PostgreSQL - Administração

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingestão de dados

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Recursos avançados

Padrões ETL / ELT / ETLT

Apache Airflow - Avançado

Airflow + dbt - Orquestração de pipelines

PySpark - Processamento em grande escala

Google Pub/Sub - Streaming de dados

Apache Beam & Dataflow

Kubernetes - Produção e escalabilidade

Terraform - Infrastructure as Code

Bancos de dados NoSQL

Arquitetura Data moderna

Monitoramento e observabilidade

IAM e segurança de dados

Domine Data Engineering para sua proxima entrevista