Data Engineering

BigQuery per il Data Engineering

Architettura serverless, partitioning, clustering, costi, UDF, federated queries, scheduled queries, materialized views

20 domande da colloquio·
Mid-Level
1

Quale architettura di storage utilizza BigQuery?

Risposta

BigQuery utilizza un'architettura serverless con storage colonnare chiamato Capacitor. Questa architettura separa storage e compute, consentendo scaling indipendente e fatturazione separata. Lo storage colonnare è ottimizzato per query analitiche poiché consente di leggere solo le colonne necessarie, riducendo significativamente l'I/O.

2

Qual è il principale vantaggio del partitioning delle tabelle in BigQuery?

Risposta

Il partitioning divide una tabella grande in segmenti più piccoli basati su una colonna (di solito una data). Durante le query, BigQuery può saltare le partizioni non rilevanti (partition pruning), riducendo la quantità di dati scansionati. Ciò migliora le prestazioni e riduce i costi poiché BigQuery fattura in base al volume di dati elaborati.

3

Quali tipi di partitioning sono disponibili in BigQuery?

Risposta

BigQuery supporta tre tipi di partitioning: per colonna DATE o TIMESTAMP (il più comune), per intervallo di interi (INTEGER RANGE) e per tempo di ingestione (_PARTITIONTIME). Il partitioning per data è raccomandato per dati di serie temporali poiché abilita un partition pruning efficiente sui filtri data.

4

Qual è la differenza tra partitioning e clustering in BigQuery?

5

Come ottimizzare i costi delle query in BigQuery?

+17 domande da colloquio

Padroneggia Data Engineering per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis