Extrahieren Sie mit Python alle URLs von der Webseite
Scraping ist eine sehr wichtige Fähigkeit für jeden, um Daten von jeder Website abzurufen. In diesem Artikel werden wir Python-Skripte schreiben, um alle URLs von der Website zu extrahieren, oder Sie können sie als CSV-Datei speichern.
Erforderliches Modul:
- bs4 : Beautiful Soup (bs4) ist eine Python-Bibliothek zum Abrufen von Daten aus HTML- und XML-Dateien. Dieses Modul ist nicht in Python integriert. Um diesen zu installieren, geben Sie den folgenden Befehl in das Terminal ein.
pip install bs4
- Anfragen : Mit Anfragen können Sie ganz einfach HTTP / 1.1-Anfragen senden. Dieses Modul ist auch nicht in Python integriert. Um diesen zu installieren, geben Sie den folgenden Befehl in das Terminal ein.
Pip Installationsanforderungen
Ansatz:
- Modul importieren
- Erstellen Sie eine Anforderungsinstanz und übergeben Sie sie an die URL
- Übergeben Sie die Anforderungen an eine Beautifulsoup() -Funktion
- Verwenden Sie das Tag 'a', um alle Tags zu finden ('a href').
Beispiel 1:
import
requests
from
bs4
import
BeautifulSoup
url
=
'https://www.geeksforgeeks.org/'
reqs
=
requests.get(url)
soup
=
BeautifulSoup(reqs.text,
'html.parser'
)
urls
=
[]
for
link
in
soup.find_all(
'a'
):
(link.get(
'href'
))
Ausgabe:
Beispiel 2:
URLs extrahieren und als CSV-Dateien speichern.
import
requests
from
bs4
import
BeautifulSoup
urls
=
'https://www.geeksforgeeks.org/'
grab
=
requests.get(urls)
soup
=
BeautifulSoup(grab.text,
'html.parser'
)
f
=
open
(
"test1.txt"
,
"w"
)
for
link
in
soup.find_all(
"a"
):
data
=
link.get(
'href'
)
f.write(data)
f.write(
"\n"
)
f.close()
Ausgabe: