Data Science & ML

Web Scraping

BeautifulSoup, requests, parsing HTML, XPath, seletores CSS, APIs, paginação, melhores práticas

18 perguntas de entrevista·
Mid-Level
1

Qual biblioteca Python é tipicamente usada para fazer requisições HTTP antes de parsear conteúdo HTML?

Resposta

A biblioteca requests é o padrão em Python para fazer requisições HTTP de forma simples e intuitiva. Permite realizar requisições GET, POST e outros verbos HTTP com uma API clara. BeautifulSoup não faz requisições HTTP, apenas parseia o HTML uma vez obtido.

2

Qual é o papel principal do BeautifulSoup em um projeto de web scraping?

Resposta

BeautifulSoup é uma biblioteca de parsing HTML/XML que permite navegar, buscar e extrair dados de um documento HTML. Cria uma árvore do documento que facilita a busca de elementos através de métodos como find() e find_all(). Não faz requisições HTTP.

3

Qual método do BeautifulSoup permite encontrar todos os elementos que correspondem a um critério dado?

Resposta

O método find_all() retorna uma lista de todos os elementos que correspondem aos critérios especificados (tag, atributos, classe, etc.). O método find() retorna apenas o primeiro elemento encontrado. select() usa seletores CSS e select_one() retorna um único elemento com um seletor CSS.

4

Como especificar um header User-Agent personalizado ao fazer uma requisição com requests?

5

Qual atributo do objeto Response retorna o conteúdo HTML como texto?

+15 perguntas de entrevista

Domine Data Science & ML para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis