Question 1

Qu'est-ce que Google BigQuery ?

Accepted Answer

BigQuery est un entrepôt de données (data warehouse) serverless, hautement scalable et économique proposé par Google Cloud Platform. Il permet d'exécuter des requêtes SQL analytiques sur des pétaoctets de données en quelques secondes grâce à son architecture distribuée. Contrairement aux bases de données traditionnelles, BigQuery sépare le stockage du calcul, ce qui permet une facturation à l'usage et une scalabilité quasi illimitée.

Question 2

Quel est le principal avantage de l'architecture serverless de BigQuery ?

Accepted Answer

L'architecture serverless de BigQuery signifie qu'il n'y a pas d'infrastructure à gérer : pas de provisionnement de serveurs, pas de configuration de clusters, pas de maintenance. Google gère automatiquement les ressources en fonction de la charge. Cela permet de se concentrer sur les requêtes et l'analyse plutôt que sur l'administration système, tout en bénéficiant d'une scalabilité automatique.

Question 3

Comment BigQuery facture-t-il les requêtes en mode on-demand ?

Accepted Answer

En mode on-demand, BigQuery facture en fonction de la quantité de données scannées par la requête, pas du temps d'exécution ni du nombre de lignes retournées. Le premier téraoctet scanné par mois est gratuit. Il est donc crucial d'optimiser les requêtes en sélectionnant uniquement les colonnes nécessaires et en utilisant le partitionnement pour réduire les coûts.

BigQuery & Cloud Data

Qu'est-ce que Google BigQuery ?

Réponse

Quel est le principal avantage de l'architecture serverless de BigQuery ?

Réponse

Comment BigQuery facture-t-il les requêtes en mode on-demand ?

Réponse

Qu'est-ce qu'un dataset dans BigQuery ?

Qu'est-ce que le partitionnement de table dans BigQuery et quel est son principal avantage ?

Autres sujets d'entretien Data Science & ML

Les bases de Python

Programmation Orientée Objet Python

Structures de données Python

Fondamentaux Git

Les bases de SQL

Fondamentaux NumPy

Les bases de Pandas

Jupyter & Google Colab

SQL Joins & Requêtes avancées

Pandas avancé

Visualisation avec Matplotlib & Seaborn

Visualisations interactives avec Plotly

Statistiques descriptives

Statistiques inférentielles

Web Scraping

Feature Engineering

ML Supervisé : Régression

ML Supervisé : Classification

Arbres de décision & Ensembles

ML Non supervisé

Pipelines ML & Validation

Séries temporelles & Prévisions

Fondamentaux Deep Learning

TensorFlow & Keras

CNN & Classification d'images

RNN & Séquences

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps & Déploiement

Maîtrise Data Science & ML pour ton prochain entretien