Question 1

Quelle bibliothèque Python est généralement utilisée pour effectuer des requêtes HTTP avant de parser le contenu HTML ?

Accepted Answer

La bibliothèque requests est la référence en Python pour effectuer des requêtes HTTP de manière simple et intuitive. Elle permet de faire des requêtes GET, POST et autres verbes HTTP avec une API claire. BeautifulSoup ne fait pas de requêtes HTTP, elle ne fait que parser le HTML une fois récupéré.

Question 2

Quel est le rôle principal de BeautifulSoup dans un projet de web scraping ?

Accepted Answer

BeautifulSoup est une bibliothèque de parsing HTML/XML qui permet de naviguer, rechercher et extraire des données dans un document HTML. Elle crée une arborescence du document qui facilite la recherche d'éléments via des méthodes comme find() et find_all(). Elle ne fait pas de requêtes HTTP.

Question 3

Quelle méthode BeautifulSoup permet de trouver tous les éléments correspondant à un critère donné ?

Accepted Answer

La méthode find_all() retourne une liste de tous les éléments correspondant aux critères spécifiés (tag, attributs, classe, etc.). La méthode find() ne retourne que le premier élément trouvé. select() utilise des sélecteurs CSS et select_one() retourne un seul élément avec un sélecteur CSS.

Web Scraping

Quelle bibliothèque Python est généralement utilisée pour effectuer des requêtes HTTP avant de parser le contenu HTML ?

Réponse

Quel est le rôle principal de BeautifulSoup dans un projet de web scraping ?

Réponse

Quelle méthode BeautifulSoup permet de trouver tous les éléments correspondant à un critère donné ?

Réponse

Comment spécifier un header User-Agent personnalisé lors d'une requête avec requests ?

Quel attribut de l'objet Response permet d'obtenir le contenu HTML sous forme de texte ?

Autres sujets d'entretien Data Science & ML

Les bases de Python

Programmation Orientée Objet Python

Structures de données Python

Fondamentaux Git

Les bases de SQL

Fondamentaux NumPy

Les bases de Pandas

Jupyter & Google Colab

SQL Joins & Requêtes avancées

Pandas avancé

Visualisation avec Matplotlib & Seaborn

Visualisations interactives avec Plotly

Statistiques descriptives

Statistiques inférentielles

BigQuery & Cloud Data

Feature Engineering

ML Supervisé : Régression

ML Supervisé : Classification

Arbres de décision & Ensembles

ML Non supervisé

Pipelines ML & Validation

Séries temporelles & Prévisions

Fondamentaux Deep Learning

TensorFlow & Keras

CNN & Classification d'images

RNN & Séquences

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps & Déploiement

Maîtrise Data Science & ML pour ton prochain entretien