Python NLTK | tokenize.regexp()
Mit Hilfe des NLTK tokenize.regexp()
Moduls können wir die Token aus dem String extrahieren, indem wir den regulären Ausdruck mit der RegexpTokenizer()
Methode verwenden.
Syntax:
tokenize.RegexpTokenizer()
Return: Gibt ein Array von Token mit regulären Ausdrücken zurück
Beispiel 1:
In diesem Beispiel verwenden wir eine RegexpTokenizer()
Methode, um den Token-Stream mithilfe regulärer Ausdrücke zu extrahieren.
from
nltk.tokenize
import
RegexpTokenizer
tk
=
RegexpTokenizer(
'\s+'
, gaps
=
True
)
gfg
=
"I love Python"
geek
=
tk.tokenize(gfg)
(geek)
Ausgabe :
['Ich', 'Liebe', 'Python']
Beispiel 2:
from
nltk.tokenize
import
RegexpTokenizer
tk
=
RegexpTokenizer(
'\s+'
, gaps
=
True
)
gfg
=
"Geeks for Geeks"
geek
=
tk.tokenize(gfg)
(geek)
Ausgabe :
['Geeks', 'for', 'Geeks']