Data Science & ML

Web Scraping

BeautifulSoup, requests, parsing HTML, XPath, selector CSS, API, paginasi, best practices

18 pertanyaan wawancaraยท
Mid-Level
1

Library Python mana yang biasanya digunakan untuk membuat permintaan HTTP sebelum parsing konten HTML?

Jawaban

Library requests adalah standar di Python untuk membuat permintaan HTTP dengan cara yang sederhana dan intuitif. Memungkinkan melakukan permintaan GET, POST dan verba HTTP lainnya dengan API yang jelas. BeautifulSoup tidak membuat permintaan HTTP, hanya parsing HTML setelah diambil.

2

Apa peran utama BeautifulSoup dalam proyek web scraping?

Jawaban

BeautifulSoup adalah library parsing HTML/XML yang memungkinkan navigasi, pencarian dan ekstraksi data dari dokumen HTML. Library ini membuat pohon dokumen yang memudahkan pencarian elemen melalui metode seperti find() dan find_all(). Tidak membuat permintaan HTTP.

3

Metode BeautifulSoup mana yang menemukan semua elemen yang cocok dengan kriteria tertentu?

Jawaban

Metode find_all() mengembalikan daftar semua elemen yang cocok dengan kriteria yang ditentukan (tag, atribut, kelas, dll). Metode find() hanya mengembalikan elemen pertama yang cocok. select() menggunakan selektor CSS dan select_one() mengembalikan satu elemen dengan selektor CSS.

4

Bagaimana cara menentukan header User-Agent kustom saat membuat permintaan dengan requests?

5

Atribut mana dari objek Response yang mengembalikan konten HTML sebagai teks?

+15 pertanyaan wawancara

Kuasai Data Science & ML untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis