Question 1

Quale architettura di storage utilizza BigQuery?

Accepted Answer

BigQuery utilizza un'architettura serverless con storage colonnare chiamato Capacitor. Questa architettura separa storage e compute, consentendo scaling indipendente e fatturazione separata. Lo storage colonnare è ottimizzato per query analitiche poiché consente di leggere solo le colonne necessarie, riducendo significativamente l'I/O.

Question 2

Qual è il principale vantaggio del partitioning delle tabelle in BigQuery?

Accepted Answer

Il partitioning divide una tabella grande in segmenti più piccoli basati su una colonna (di solito una data). Durante le query, BigQuery può saltare le partizioni non rilevanti (partition pruning), riducendo la quantità di dati scansionati. Ciò migliora le prestazioni e riduce i costi poiché BigQuery fattura in base al volume di dati elaborati.

Question 3

Quali tipi di partitioning sono disponibili in BigQuery?

Accepted Answer

BigQuery supporta tre tipi di partitioning: per colonna DATE o TIMESTAMP (il più comune), per intervallo di interi (INTEGER RANGE) e per tempo di ingestione (_PARTITIONTIME). Il partitioning per data è raccomandato per dati di serie temporali poiché abilita un partition pruning efficiente sui filtri data.

BigQuery per il Data Engineering

Quale architettura di storage utilizza BigQuery?

Risposta

Qual è il principale vantaggio del partitioning delle tabelle in BigQuery?

Risposta

Quali tipi di partitioning sono disponibili in BigQuery?

Risposta

Qual è la differenza tra partitioning e clustering in BigQuery?

Come ottimizzare i costi delle query in BigQuery?

Altri argomenti di colloquio Data Engineering

Linux & Shell - Fondamenti

Git & GitHub - Fondamenti

Python avanzato per Data Engineering

Docker - Fondamenti

Google Cloud Platform - Fondamenti

CI/CD e qualità del codice

Docker Compose

FastAPI - API per dati

SQL avanzato per il Data Engineering

Data Lake - Architettura e ingestione

PostgreSQL - Amministrazione

Data Modeling per Data Engineering

Fivetran & Airbyte - Ingestione dati

dbt - Fondamenti

Apache Airflow - Fondamenti

Kubernetes - Fondamenti

dbt - Funzionalità avanzate

Pattern ETL / ELT / ETLT

Apache Airflow - Avanzato

Airflow + dbt - Orchestrazione delle pipeline

PySpark - Elaborazione su larga scala

Google Pub/Sub - Streaming di dati

Apache Beam & Dataflow

Kubernetes - Produzione e scaling

Terraform - Infrastructure as Code

Database NoSQL

Data Architecture moderna

Monitoraggio e osservabilità

IAM e sicurezza dei dati

Padroneggia Data Engineering per il tuo prossimo colloquio