Data Science & ML

Web Scraping

BeautifulSoup, requests, parsing HTML, XPath, CSS selectors, APIs, pagination, best practices

18 questions d'entretien·
Confirmé
1

Quelle bibliothèque Python est généralement utilisée pour effectuer des requêtes HTTP avant de parser le contenu HTML ?

Réponse

La bibliothèque requests est la référence en Python pour effectuer des requêtes HTTP de manière simple et intuitive. Elle permet de faire des requêtes GET, POST et autres verbes HTTP avec une API claire. BeautifulSoup ne fait pas de requêtes HTTP, elle ne fait que parser le HTML une fois récupéré.

2

Quel est le rôle principal de BeautifulSoup dans un projet de web scraping ?

Réponse

BeautifulSoup est une bibliothèque de parsing HTML/XML qui permet de naviguer, rechercher et extraire des données dans un document HTML. Elle crée une arborescence du document qui facilite la recherche d'éléments via des méthodes comme find() et find_all(). Elle ne fait pas de requêtes HTTP.

3

Quelle méthode BeautifulSoup permet de trouver tous les éléments correspondant à un critère donné ?

Réponse

La méthode find_all() retourne une liste de tous les éléments correspondant aux critères spécifiés (tag, attributs, classe, etc.). La méthode find() ne retourne que le premier élément trouvé. select() utilise des sélecteurs CSS et select_one() retourne un seul élément avec un sélecteur CSS.

4

Comment spécifier un header User-Agent personnalisé lors d'une requête avec requests ?

5

Quel attribut de l'objet Response permet d'obtenir le contenu HTML sous forme de texte ?

+15 questions d'entretien

Maîtrise Data Science & ML pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement