Question 1

Quelle est l'architecture de stockage utilisée par BigQuery ?

Accepted Answer

BigQuery utilise une architecture serverless avec un stockage en colonnes (columnar storage) appelé Capacitor. Cette architecture sépare le stockage et le compute, permettant un scaling indépendant et une facturation distincte. Le stockage columnar est optimisé pour les requêtes analytiques car il permet de ne lire que les colonnes nécessaires, réduisant considérablement les I/O.

Question 2

Quel est le principal avantage du partitionnement de tables dans BigQuery ?

Accepted Answer

Le partitionnement permet de diviser une grande table en segments plus petits basés sur une colonne (généralement une date). Lors des requêtes, BigQuery peut ignorer les partitions non pertinentes (partition pruning), ce qui réduit la quantité de données scannées. Cela améliore les performances et réduit les coûts car BigQuery facture selon le volume de données traitées.

Question 3

Quels sont les types de partitionnement disponibles dans BigQuery ?

Accepted Answer

BigQuery supporte trois types de partitionnement : par colonne de type DATE ou TIMESTAMP (le plus courant), par plage d'entiers (INTEGER RANGE), et par heure d'ingestion (_PARTITIONTIME). Le partitionnement par date est recommandé pour les données temporelles car il permet un partition pruning efficace sur les filtres de date.

BigQuery pour le Data Engineering

Quelle est l'architecture de stockage utilisée par BigQuery ?

Réponse

Quel est le principal avantage du partitionnement de tables dans BigQuery ?

Réponse

Quels sont les types de partitionnement disponibles dans BigQuery ?

Réponse

Quelle est la différence entre le partitionnement et le clustering dans BigQuery ?

Comment optimiser les coûts de requêtes dans BigQuery ?

Autres sujets d'entretien Data Engineering

Linux & Shell - Fondamentaux

Git & GitHub - Fondamentaux

Python avancé pour le Data Engineering

Docker - Fondamentaux

Google Cloud Platform - Fondamentaux

CI/CD et qualité de code

Docker Compose

FastAPI - APIs de données

SQL avancé pour le Data Engineering

Data Lake - Architecture et ingestion

PostgreSQL - Administration

Data Modeling pour le Data Engineering

Fivetran & Airbyte - Ingestion de données

dbt - Fondamentaux

Apache Airflow - Fondamentaux

Kubernetes - Fondamentaux

dbt - Fonctionnalités avancées

Patterns ETL / ELT / ETLT

Apache Airflow - Avancé

Airflow + dbt - Orchestration de pipelines

PySpark - Traitement à grande échelle

Google Pub/Sub - Streaming de données

Apache Beam & Dataflow

Kubernetes - Production et scaling

Terraform - Infrastructure as Code

Bases de données NoSQL

Architecture Data moderne

Monitoring et observabilité

IAM et sécurité des données

Maîtrise Data Engineering pour ton prochain entretien