Mit Hilfe des NLTK tokenize.regexp()Moduls können wir die Token aus dem String extrahieren, indem wir den regulären Ausdruck mit der RegexpTokenizer()Methode verwenden.

Syntax: tokenize.RegexpTokenizer()
Return: Gibt ein Array von Token mit regulären Ausdrücken zurück

Beispiel 1:
In diesem Beispiel verwenden wir eine RegexpTokenizer()Methode, um den Token-Stream mithilfe regulärer Ausdrücke zu extrahieren.

from nltk.tokenize import RegexpTokenizer 
    
tk = RegexpTokenizer('\s+', gaps = True) 
    
gfg = "I love Python"
    
geek = tk.tokenize(gfg) 
    
print(geek) 

Ausgabe :

['Ich', 'Liebe', 'Python']



Beispiel 2:

from nltk.tokenize import RegexpTokenizer 
    
tk = RegexpTokenizer('\s+', gaps = True) 
    
gfg = "Geeks for Geeks"
    
geek = tk.tokenize(gfg) 
    
print(geek) 

Ausgabe :

['Geeks', 'for', 'Geeks']