Python ist eine großartige Sprache für die Datenanalyse, vor allem aufgrund des fantastischen Ökosystems datenzentrierter Python-Pakete. Pandas ist eines dieser Pakete und erleichtert das Importieren und Analysieren von Daten erheblich.

Pandas importieren:

Pandas als pd importieren

 
Code 1: read_csv ist eine wichtige Pandas-Funktion, um CSV-Dateien zu lesen und Operationen daran durchzuführen.

import pandas as pd 
  
pd.read_csv("filename.csv") 

Das Öffnen einer CSV-Datei ist einfach. Es gibt aber noch viele andere Dinge, die man mit dieser Funktion tun kann, um das zurückgegebene Objekt vollständig zu ändern. Zum Beispiel kann man eine CSV-Datei nicht nur lokal lesen, sondern von einer URL über read_csv, oder man kann auswählen, welche Spalten exportiert werden sollen, damit wir das Array später nicht bearbeiten müssen.

Hier ist die Liste der Parameter, die mit ihren Standardwerten verwendet werden .



pd.read_csv (filepath_or_buffer, sep = ',', delimiter = None, header = 'infer', names = None, index_col = None, usecols = None, Squeeze = False, prefix = None, mangle_dupe_cols = True, dtype = None, engine = None, Konverter = Keine, true_values ​​= Keine, false_values ​​= Keine, skipinitialspace = False, skiprows = Keine, nrows = Keine, na_values ​​= Keine, keep_default_na = True, na_filter = True, verbose = False, skip_blank_lines = True, parse_dates = False, infer_datetime_format = False, keep_date_col = False, date_parser = None, dayfirst = False, iterator = False, chunksize = None, Komprimierung = 'infer', Tausend = None, decimal = b '.', Lineterminator = None, quotechar = '' '', Anführungszeichen = 0, Escapeechar = Keine, Kommentar = Keine, Codierung = Keine, Dialekt = Keine, tupleize_cols = Keine, error_bad_lines = True, warn_bad_lines = True, skipfooter = 0, doublequote = True, delim_whitespace = False, low_memory = True, memory_map = False , float_precision = Keine)

Nicht alle von ihnen sind sehr wichtig, aber wenn Sie sich daran erinnern, sparen Sie tatsächlich Zeit, wenn Sie dieselben Funktionen alleine ausführen. Sie können Parameter jeder Funktion anzeigen, indem Sie im Jupyter-Notizbuch Umschalt + Tab drücken. Nützliche sind unten mit ihrer Verwendung angegeben:

Parameter Benutzen
Dateipfad_oder_Buffer URL oder Dir Speicherort der Datei
sep Steht für Trennzeichen, Standard ist ',' wie in csv (durch Kommas getrennte Werte)
index_col Übergibt die Spalte als Index anstelle von 0, 1, 2, 3… r
Header Übergibt die übergebenen Zeilen [int / int list] als Header

use_cols Verwendet nur die übergebene Spalte [Zeichenfolgenliste], um einen Datenrahmen zu erstellen
drücken Wenn true und nur eine Spalte übergeben wird, werden Pandas-Serien zurückgegeben
Skiprows Überspringt übergebene Zeilen in einem neuen Datenrahmen

Siehe den Link zum Datensatz aus verwendet hier .

Code # 2:

import pandas as pd 
  
pd.read_csv(filepath_or_buffer = "pokemon.csv") 
  
pd.read_csv("pokemon.csv", header =[1, 2]) 
  
pd.read_csv("pokemon.csv", index_col ='Type') 
  
pd.read_csv("pokemon.csv", usecols =["Type"]) 
  
pd.read_csv("pokemon.csv", usecols =["Type"], 
                              squeeze = True) 
                                
pd.read_csv("pokemon.csv", 
            skiprows = [1, 2, 3, 4])