Data Science & ML

Web Scraping

BeautifulSoup, requests, parsowanie HTML, XPath, selektory CSS, API, paginacja, najlepsze praktyki

18 pytań z rozmów·
Mid-Level
1

Która biblioteka Pythona jest zazwyczaj używana do wykonywania żądań HTTP przed parsowaniem treści HTML?

Odpowiedź

Biblioteka requests jest standardem w Pythonie do wykonywania żądań HTTP w prosty i intuicyjny sposób. Pozwala na wykonywanie żądań GET, POST i innych metod HTTP za pomocą jasnego API. BeautifulSoup nie wykonuje żądań HTTP, jedynie parsuje HTML po jego pobraniu.

2

Jaka jest główna rola BeautifulSoup w projekcie web scrapingu?

Odpowiedź

BeautifulSoup to biblioteka do parsowania HTML/XML, która pozwala na nawigację, wyszukiwanie i wyodrębnianie danych z dokumentu HTML. Tworzy drzewo dokumentu, które ułatwia wyszukiwanie elementów za pomocą metod takich jak find() i find_all(). Nie wykonuje żądań HTTP.

3

Która metoda BeautifulSoup znajduje wszystkie elementy pasujące do danego kryterium?

Odpowiedź

Metoda find_all() zwraca listę wszystkich elementów pasujących do określonych kryteriów (tag, atrybuty, klasa itp.). Metoda find() zwraca tylko pierwszy pasujący element. select() używa selektorów CSS, a select_one() zwraca pojedynczy element z selektorem CSS.

4

Jak określić niestandardowy nagłówek User-Agent podczas wykonywania żądania za pomocą requests?

5

Który atrybut obiektu Response zwraca zawartość HTML jako tekst?

+15 pytań z rozmów

Opanuj Data Science & ML na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo