Data Science & ML

Web Scraping

BeautifulSoup, requests, parsing HTML, XPath, selectores CSS, APIs, paginación, mejores prácticas

18 preguntas de entrevista·
Mid-Level
1

¿Qué biblioteca de Python se utiliza típicamente para realizar peticiones HTTP antes de parsear contenido HTML?

Respuesta

La biblioteca requests es el estándar en Python para realizar peticiones HTTP de manera simple e intuitiva. Permite ejecutar peticiones GET, POST y otros verbos HTTP con una API clara. BeautifulSoup no realiza peticiones HTTP, solo parsea el HTML una vez obtenido.

2

¿Cuál es el rol principal de BeautifulSoup en un proyecto de web scraping?

Respuesta

BeautifulSoup es una biblioteca de parsing HTML/XML que permite navegar, buscar y extraer datos de un documento HTML. Crea un árbol del documento que facilita la búsqueda de elementos mediante métodos como find() y find_all(). No realiza peticiones HTTP.

3

¿Qué método de BeautifulSoup permite encontrar todos los elementos que coinciden con un criterio dado?

Respuesta

El método find_all() retorna una lista de todos los elementos que coinciden con los criterios especificados (tag, atributos, clase, etc.). El método find() solo retorna el primer elemento encontrado. select() utiliza selectores CSS y select_one() retorna un solo elemento con un selector CSS.

4

¿Cómo especificar un header User-Agent personalizado al hacer una petición con requests?

5

¿Qué atributo del objeto Response retorna el contenido HTML como texto?

+15 preguntas de entrevista

Domina Data Science & ML para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis