Data Engineering

BigQuery pour le Data Engineering

Architecture serverless, partitionnement, clustering, coûts, UDFs, federated queries, scheduled queries, materialized views

20 questions d'entretien·
Confirmé
1

Quelle est l'architecture de stockage utilisée par BigQuery ?

Réponse

BigQuery utilise une architecture serverless avec un stockage en colonnes (columnar storage) appelé Capacitor. Cette architecture sépare le stockage et le compute, permettant un scaling indépendant et une facturation distincte. Le stockage columnar est optimisé pour les requêtes analytiques car il permet de ne lire que les colonnes nécessaires, réduisant considérablement les I/O.

2

Quel est le principal avantage du partitionnement de tables dans BigQuery ?

Réponse

Le partitionnement permet de diviser une grande table en segments plus petits basés sur une colonne (généralement une date). Lors des requêtes, BigQuery peut ignorer les partitions non pertinentes (partition pruning), ce qui réduit la quantité de données scannées. Cela améliore les performances et réduit les coûts car BigQuery facture selon le volume de données traitées.

3

Quels sont les types de partitionnement disponibles dans BigQuery ?

Réponse

BigQuery supporte trois types de partitionnement : par colonne de type DATE ou TIMESTAMP (le plus courant), par plage d'entiers (INTEGER RANGE), et par heure d'ingestion (_PARTITIONTIME). Le partitionnement par date est recommandé pour les données temporelles car il permet un partition pruning efficace sur les filtres de date.

4

Quelle est la différence entre le partitionnement et le clustering dans BigQuery ?

5

Comment optimiser les coûts de requêtes dans BigQuery ?

+17 questions d'entretien

Maîtrise Data Engineering pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement