Ersetzen von Zeichenfolgen durch Zahlen in Python für die Datenanalyse
Manchmal müssen wir Zeichenfolgenwerte in einem Pandas-Datenrahmen in eine eindeutige Ganzzahl konvertieren , damit die Algorithmen eine bessere Leistung erzielen können. Daher weisen wir einem Zeichenfolgenwert in Pandas DataFrame einen eindeutigen numerischen Wert zu.
Hinweis: Erstellen Sie vor der Ausführung eine example.csv-Datei mit einigen Namen und Geschlecht
Angenommen, wir haben eine Tabelle mit Namen und Geschlechtsspalte. In der Spalte Geschlecht gibt es zwei Kategorien: männlich und weiblich. Nehmen wir an, wir möchten 1 männlich und 2 weiblich zuweisen.
Beispiele:
Eingabe: --------------------- | Name | Geschlecht --------------------- 0 Ram Männchen 1 Seeta weiblich 2 Kartik Männlich 3 Niti weiblich 4 Naitik Männlich Ausgabe : | Name | Geschlecht --------------------- 0 Ram 1 1 Seeta 2 2 Kartik 1 3 Niti 2 4 Naitik 1
Methode 1:
So erstellen Sie ein Wörterbuch mit zwei Elemente mit folgendem Schlüssel-Wert-Paar: Schlüsselwert männlich 1 weiblich 2
Iterieren Sie dann mit der for-Schleife durch die Spalte Gender von DataFrame und ersetzen Sie die Werte, wo immer sich die Schlüssel befinden.
import
pandas as pd
file_handler
=
open
(
"example.csv"
,
"r"
)
data
=
pd.read_csv(file_handler, sep
=
","
)
file_handler.close()
gender
=
{
'male'
:
1
,
'female'
:
2
}
data.Gender
=
[gender[item]
for
item
in
data.Gender]
(data)
Ausgabe :
| Name | Geschlecht --------------------- 0 Ram 1 1 Seeta 2 2 Kartik 1 3 Niti 2 4 Naitik 1
Methode 2:
Methode 2 ist ebenfalls ähnlich, erfordert jedoch keine Wörterbuchdatei und benötigt weniger Codezeilen. In diesem Fall durchlaufen wir intern die Spalte Geschlecht von DataFrame und ändern die Werte, wenn die Bedingung übereinstimmt.
import
pandas as pd
file_handler
=
open
(
"example.csv"
,
"r"
)
data
=
pd.read_csv(file_handler, sep
=
","
)
file_handler.close()
data.Gender[data.Gender
=
=
'male'
]
=
1
data.Gender[data.Gender
=
=
'female'
]
=
2
(data)
Ausgabe :
| Name | Geschlecht --------------------- 0 Ram 1 1 Seeta 2 2 Kartik 1 3 Niti 2 4 Naitik 1
Anwendungen
- Diese Technik kann in Data Science angewendet werden. Angenommen, wir arbeiten an einem Datensatz, der das Geschlecht als "männlich" und "weiblich" enthält, dann können wir Zahlen wie "0" bzw. "1" zuweisen, damit unsere Algorithmen mit den Daten arbeiten können.
- Diese Technik kann auch angewendet werden, um bestimmte Werte in einem Datensatz durch neue Werte zu ersetzen.
Verweise