Data Science & ML

Web Scraping

BeautifulSoup, requests, HTML 파싱, XPath, CSS 선택자, API, 페이지네이션, 모범 사례

18 면접 질문·
Mid-Level
1

HTML 콘텐츠를 파싱하기 전에 HTTP 요청을 수행하는 데 일반적으로 사용되는 Python 라이브러리는 무엇입니까?

답변

requests 라이브러리는 간단하고 직관적인 방식으로 HTTP 요청을 수행하기 위한 Python의 표준입니다. 명확한 API로 GET, POST 및 기타 HTTP 메서드를 실행할 수 있습니다. BeautifulSoup은 HTTP 요청을 수행하지 않으며, 가져온 HTML만 파싱합니다.

2

웹 스크래핑 프로젝트에서 BeautifulSoup의 주요 역할은 무엇입니까?

답변

BeautifulSoup은 HTML 문서에서 데이터를 탐색, 검색 및 추출할 수 있는 HTML/XML 파싱 라이브러리입니다. find() 및 find_all()과 같은 메서드를 사용하여 요소를 쉽게 검색할 수 있는 문서 트리를 만듭니다. HTTP 요청은 수행하지 않습니다.

3

주어진 기준과 일치하는 모든 요소를 찾는 BeautifulSoup 메서드는 무엇입니까?

답변

find_all() 메서드는 지정된 기준(태그, 속성, 클래스 등)과 일치하는 모든 요소의 리스트를 반환합니다. find() 메서드는 처음 일치하는 요소만 반환합니다. select()는 CSS 선택자를 사용하고 select_one()은 CSS 선택자로 단일 요소를 반환합니다.

4

requests로 요청할 때 사용자 정의 User-Agent 헤더를 지정하는 방법은 무엇입니까?

5

Response 객체의 어떤 속성이 HTML 콘텐츠를 텍스트로 반환합니까?

+15 면접 질문

다음 면접을 위해 Data Science & ML을 마스터하세요

모든 질문, flashcards, 기술 테스트, 코드 리뷰 연습, 면접 시뮬레이터에 접근하세요.

무료로 시작하기