Question 1

Thư viện Python nào thường được sử dụng để thực hiện các yêu cầu HTTP trước khi phân tích nội dung HTML?

Accepted Answer

Thư viện requests là tiêu chuẩn trong Python để thực hiện các yêu cầu HTTP một cách đơn giản và trực quan. Nó cho phép thực hiện các yêu cầu GET, POST và các động từ HTTP khác với API rõ ràng. BeautifulSoup không thực hiện các yêu cầu HTTP, nó chỉ phân tích HTML sau khi được lấy về.

Question 2

Vai trò chính của BeautifulSoup trong một dự án web scraping là gì?

Accepted Answer

BeautifulSoup là một thư viện phân tích HTML/XML cho phép điều hướng, tìm kiếm và trích xuất dữ liệu từ một tài liệu HTML. Nó tạo ra một cây tài liệu giúp dễ dàng tìm kiếm các phần tử thông qua các phương thức như find() và find_all(). Nó không thực hiện các yêu cầu HTTP.

Question 3

Phương thức BeautifulSoup nào tìm tất cả các phần tử khớp với một tiêu chí nhất định?

Accepted Answer

Phương thức find_all() trả về một danh sách tất cả các phần tử khớp với tiêu chí được chỉ định (tag, thuộc tính, lớp, v.v.). Phương thức find() chỉ trả về phần tử khớp đầu tiên. select() sử dụng bộ chọn CSS và select_one() trả về một phần tử duy nhất với bộ chọn CSS.

Web Scraping

Thư viện Python nào thường được sử dụng để thực hiện các yêu cầu HTTP trước khi phân tích nội dung HTML?

Câu trả lời

Vai trò chính của BeautifulSoup trong một dự án web scraping là gì?

Câu trả lời

Phương thức BeautifulSoup nào tìm tất cả các phần tử khớp với một tiêu chí nhất định?

Câu trả lời

Cách chỉ định header User-Agent tùy chỉnh khi thực hiện yêu cầu với requests?

Thuộc tính nào của đối tượng Response trả về nội dung HTML dưới dạng văn bản?

Các chủ đề phỏng vấn Data Science & ML khác

Cơ bản về Python

Lập trình Hướng đối tượng Python

Cấu trúc dữ liệu Python

Kiến Thức Cơ Bản về Git

Cơ bản về SQL

Kiến thức cơ bản về NumPy

Cơ bản về Pandas

Jupyter & Google Colab

SQL Joins & Truy vấn nâng cao

Pandas nâng cao

Trực quan hóa với Matplotlib & Seaborn

Trực quan hóa tương tác với Plotly

Thống kê mô tả

Thống kê suy luận

BigQuery & Cloud Data

Feature Engineering

ML Có Giám Sát: Hồi Quy

ML Có Giám Sát: Phân Loại

Cây Quyết định & Ensemble

ML Không Giám Sát

Pipeline ML & Xác thực

Chuỗi thời gian & Dự báo

Cơ Bản Về Deep Learning

TensorFlow & Keras

CNN và phân loại hình ảnh

RNN & Chuỗi

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps và Triển khai

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo