Data Science & ML

Web Scraping

BeautifulSoup、requests、HTMLパーシング、XPath、CSSセレクタ、API、ページネーション、ベストプラクティス

18 面接問題·
Mid-Level
1

HTMLコンテンツをパースする前にHTTPリクエストを行うために通常使用されるPythonライブラリはどれですか?

回答

requestsライブラリは、HTTPリクエストをシンプルかつ直感的に実行するためのPython標準です。明確なAPIでGET、POSTなどのHTTPメソッドを実行できます。BeautifulSoupはHTTPリクエストを行わず、取得後のHTMLをパースするだけです。

2

Web scrapingプロジェクトにおけるBeautifulSoupの主な役割は何ですか?

回答

BeautifulSoupは、HTMLドキュメントからデータをナビゲート、検索、抽出することを可能にするHTML/XMLパーシングライブラリです。find()やfind_all()などのメソッドを使用して要素を検索しやすくするドキュメントツリーを作成します。HTTPリクエストは行いません。

3

指定された条件に一致するすべての要素を見つけるBeautifulSoupのメソッドはどれですか?

回答

find_all()メソッドは、指定された条件(タグ、属性、クラスなど)に一致するすべての要素のリストを返します。find()メソッドは最初に一致した要素のみを返します。select()はCSSセレクタを使用し、select_one()はCSSセレクタで単一の要素を返します。

4

requestsでリクエストを行う際にカスタムUser-Agentヘッダーを指定するにはどうすればよいですか?

5

ResponseオブジェクトのどのプロパティがHTMLコンテンツをテキストとして返しますか?

+15 面接問題

次の面接に向けてData Science & MLをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める