Data Science & ML

Web Scraping

BeautifulSoup, requests, parsing HTML, XPath, selettori CSS, API, paginazione, best practice

18 domande da colloquio·
Mid-Level
1

Quale libreria Python viene tipicamente utilizzata per effettuare richieste HTTP prima di parsare il contenuto HTML?

Risposta

La libreria requests è lo standard in Python per effettuare richieste HTTP in modo semplice e intuitivo. Consente di eseguire richieste GET, POST e altri verbi HTTP con un'API chiara. BeautifulSoup non effettua richieste HTTP, ma si limita a parsare l'HTML una volta recuperato.

2

Qual è il ruolo principale di BeautifulSoup in un progetto di web scraping?

Risposta

BeautifulSoup è una libreria di parsing HTML/XML che consente di navigare, cercare ed estrarre dati da un documento HTML. Crea un albero del documento che facilita la ricerca di elementi tramite metodi come find() e find_all(). Non effettua richieste HTTP.

3

Quale metodo di BeautifulSoup trova tutti gli elementi corrispondenti a un criterio specifico?

Risposta

Il metodo find_all() restituisce una lista di tutti gli elementi corrispondenti ai criteri specificati (tag, attributi, classe, ecc.). Il metodo find() restituisce solo il primo elemento corrispondente. select() utilizza selettori CSS e select_one() restituisce un singolo elemento con un selettore CSS.

4

Come specificare un header User-Agent personalizzato durante una richiesta con requests?

5

Quale attributo dell'oggetto Response restituisce il contenuto HTML come testo?

+15 domande da colloquio

Padroneggia Data Science & ML per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis