Scraping ist eine sehr wichtige Fähigkeit für jeden, um Daten von jeder Website abzurufen. In diesem Artikel werden wir Python-Skripte schreiben, um alle URLs von der Website zu extrahieren, oder Sie können sie als CSV-Datei speichern.

Erforderliches Modul:

  • bs4 : Beautiful Soup (bs4) ist eine Python-Bibliothek zum Abrufen von Daten aus HTML- und XML-Dateien. Dieses Modul ist nicht in Python integriert. Um diesen zu installieren, geben Sie den folgenden Befehl in das Terminal ein.
pip install bs4
  • Anfragen : Mit  Anfragen können Sie ganz einfach HTTP / 1.1-Anfragen senden. Dieses Modul ist auch nicht in Python integriert. Um diesen zu installieren, geben Sie den folgenden Befehl in das Terminal ein.
Pip Installationsanforderungen

Ansatz:

  • Modul importieren
  • Erstellen Sie eine Anforderungsinstanz und übergeben Sie sie an die URL
  • Übergeben Sie die Anforderungen an eine Beautifulsoup() -Funktion
  • Verwenden Sie das Tag 'a', um alle Tags zu finden ('a href').

Beispiel 1:

import requests
from bs4 import BeautifulSoup
 
 
url = 'https://www.geeksforgeeks.org/'
reqs = requests.get(url)
soup = BeautifulSoup(reqs.text, 'html.parser')
 
urls = []
for link in soup.find_all('a'):
    print(link.get('href'))

Ausgabe:

Beispiel 2:

URLs extrahieren und als CSV-Dateien speichern.

import requests
from bs4 import BeautifulSoup
 
urls = 'https://www.geeksforgeeks.org/'
grab = requests.get(urls)
soup = BeautifulSoup(grab.text, 'html.parser')
 
f = open("test1.txt", "w")
for link in soup.find_all("a"):
   data = link.get('href')
   f.write(data)
   f.write("\n")
 
f.close()

Ausgabe: