Data Science & ML

Web Scraping

BeautifulSoup, requests, HTML-Parsing, XPath, CSS-Selektoren, APIs, Paginierung, Best Practices

18 Interview-Fragen·
Mid-Level
1

Welche Python-Bibliothek wird typischerweise verwendet, um HTTP-Anfragen zu stellen, bevor HTML-Inhalte geparst werden?

Antwort

Die requests-Bibliothek ist der Standard in Python für einfache und intuitive HTTP-Anfragen. Sie ermöglicht GET-, POST- und andere HTTP-Methoden mit einer klaren API. BeautifulSoup führt keine HTTP-Anfragen aus, sondern parst nur das HTML nach dem Abrufen.

2

Was ist die Hauptrolle von BeautifulSoup in einem Web-Scraping-Projekt?

Antwort

BeautifulSoup ist eine HTML/XML-Parsing-Bibliothek, die das Navigieren, Suchen und Extrahieren von Daten aus einem HTML-Dokument ermöglicht. Sie erstellt einen Dokumentenbaum, der die Suche nach Elementen über Methoden wie find() und find_all() erleichtert. Sie führt keine HTTP-Anfragen aus.

3

Welche BeautifulSoup-Methode findet alle Elemente, die einem bestimmten Kriterium entsprechen?

Antwort

Die Methode find_all() gibt eine Liste aller Elemente zurück, die den angegebenen Kriterien (Tag, Attribute, Klasse usw.) entsprechen. Die Methode find() gibt nur das erste übereinstimmende Element zurück. select() verwendet CSS-Selektoren und select_one() gibt ein einzelnes Element mit einem CSS-Selektor zurück.

4

Wie gibt man einen benutzerdefinierten User-Agent-Header bei einer Anfrage mit requests an?

5

Welches Attribut des Response-Objekts gibt den HTML-Inhalt als Text zurück?

+15 Interview-Fragen

Meistere Data Science & ML für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten