
BigQuery pour le Data Engineering
Architecture serverless, partitionnement, clustering, coûts, UDFs, federated queries, scheduled queries, materialized views
1Quelle est l'architecture de stockage utilisée par BigQuery ?
Quelle est l'architecture de stockage utilisée par BigQuery ?
Réponse
BigQuery utilise une architecture serverless avec un stockage en colonnes (columnar storage) appelé Capacitor. Cette architecture sépare le stockage et le compute, permettant un scaling indépendant et une facturation distincte. Le stockage columnar est optimisé pour les requêtes analytiques car il permet de ne lire que les colonnes nécessaires, réduisant considérablement les I/O.
2Quel est le principal avantage du partitionnement de tables dans BigQuery ?
Quel est le principal avantage du partitionnement de tables dans BigQuery ?
Réponse
Le partitionnement permet de diviser une grande table en segments plus petits basés sur une colonne (généralement une date). Lors des requêtes, BigQuery peut ignorer les partitions non pertinentes (partition pruning), ce qui réduit la quantité de données scannées. Cela améliore les performances et réduit les coûts car BigQuery facture selon le volume de données traitées.
3Quels sont les types de partitionnement disponibles dans BigQuery ?
Quels sont les types de partitionnement disponibles dans BigQuery ?
Réponse
BigQuery supporte trois types de partitionnement : par colonne de type DATE ou TIMESTAMP (le plus courant), par plage d'entiers (INTEGER RANGE), et par heure d'ingestion (_PARTITIONTIME). Le partitionnement par date est recommandé pour les données temporelles car il permet un partition pruning efficace sur les filtres de date.
Quelle est la différence entre le partitionnement et le clustering dans BigQuery ?
Comment optimiser les coûts de requêtes dans BigQuery ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
Data Lake - Architecture et ingestion
PostgreSQL - Administration
Data Modeling pour le Data Engineering
Fivetran & Airbyte - Ingestion de données
dbt - Fondamentaux
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Patterns ETL / ELT / ETLT
Apache Airflow - Avancé
Airflow + dbt - Orchestration de pipelines
PySpark - Traitement à grande échelle
Google Pub/Sub - Streaming de données
Apache Beam & Dataflow
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Architecture Data moderne
Monitoring et observabilité
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement