
BigQuery per il Data Engineering
Architettura serverless, partitioning, clustering, costi, UDF, federated queries, scheduled queries, materialized views
1Quale architettura di storage utilizza BigQuery?
Quale architettura di storage utilizza BigQuery?
Risposta
BigQuery utilizza un'architettura serverless con storage colonnare chiamato Capacitor. Questa architettura separa storage e compute, consentendo scaling indipendente e fatturazione separata. Lo storage colonnare è ottimizzato per query analitiche poiché consente di leggere solo le colonne necessarie, riducendo significativamente l'I/O.
2Qual è il principale vantaggio del partitioning delle tabelle in BigQuery?
Qual è il principale vantaggio del partitioning delle tabelle in BigQuery?
Risposta
Il partitioning divide una tabella grande in segmenti più piccoli basati su una colonna (di solito una data). Durante le query, BigQuery può saltare le partizioni non rilevanti (partition pruning), riducendo la quantità di dati scansionati. Ciò migliora le prestazioni e riduce i costi poiché BigQuery fattura in base al volume di dati elaborati.
3Quali tipi di partitioning sono disponibili in BigQuery?
Quali tipi di partitioning sono disponibili in BigQuery?
Risposta
BigQuery supporta tre tipi di partitioning: per colonna DATE o TIMESTAMP (il più comune), per intervallo di interi (INTEGER RANGE) e per tempo di ingestione (_PARTITIONTIME). Il partitioning per data è raccomandato per dati di serie temporali poiché abilita un partition pruning efficiente sui filtri data.
Qual è la differenza tra partitioning e clustering in BigQuery?
Come ottimizzare i costi delle query in BigQuery?
+17 domande da colloquio
Altri argomenti di colloquio Data Engineering
Linux & Shell - Fondamenti
Git & GitHub - Fondamenti
Python avanzato per Data Engineering
Docker - Fondamenti
Google Cloud Platform - Fondamenti
CI/CD e qualità del codice
Docker Compose
FastAPI - API per dati
SQL avanzato per il Data Engineering
Data Lake - Architettura e ingestione
PostgreSQL - Amministrazione
Data Modeling per Data Engineering
Fivetran & Airbyte - Ingestione dati
dbt - Fondamenti
Apache Airflow - Fondamenti
Kubernetes - Fondamenti
dbt - Funzionalità avanzate
Pattern ETL / ELT / ETLT
Apache Airflow - Avanzato
Airflow + dbt - Orchestrazione delle pipeline
PySpark - Elaborazione su larga scala
Google Pub/Sub - Streaming di dati
Apache Beam & Dataflow
Kubernetes - Produzione e scaling
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture moderna
Monitoraggio e osservabilità
IAM e sicurezza dei dati
Padroneggia Data Engineering per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis