Data Science & ML

Web Scraping

BeautifulSoup, requests, HTML-parsing, XPath, CSS-selectors, API's, paginering, best practices

18 gespreksvragen·
Mid-Level
1

Welke Python-bibliotheek wordt doorgaans gebruikt om HTTP-verzoeken te doen voordat HTML-inhoud wordt geparsed?

Antwoord

De requests-bibliotheek is de standaard in Python voor het maken van HTTP-verzoeken op een eenvoudige en intuïtieve manier. Het maakt het mogelijk om GET-, POST- en andere HTTP-werkwoorden uit te voeren met een duidelijke API. BeautifulSoup maakt geen HTTP-verzoeken, het parseert alleen HTML zodra deze is opgehaald.

2

Wat is de hoofdrol van BeautifulSoup in een web scraping-project?

Antwoord

BeautifulSoup is een HTML/XML-parsingbibliotheek waarmee je kunt navigeren, zoeken en gegevens uit een HTML-document kunt halen. Het maakt een documentboom die het zoeken naar elementen vergemakkelijkt via methoden zoals find() en find_all(). Het maakt geen HTTP-verzoeken.

3

Welke BeautifulSoup-methode vindt alle elementen die voldoen aan een bepaald criterium?

Antwoord

De methode find_all() retourneert een lijst van alle elementen die voldoen aan de opgegeven criteria (tag, attributen, klasse, enz.). De methode find() retourneert alleen het eerste overeenkomende element. select() gebruikt CSS-selectors en select_one() retourneert een enkel element met een CSS-selector.

4

Hoe een aangepaste User-Agent-header opgeven bij het doen van een verzoek met requests?

5

Welk attribuut van het Response-object retourneert de HTML-inhoud als tekst?

+15 gespreksvragen

Beheers Data Science & ML voor je volgende gesprek

Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.

Begin gratis