pandas---使用教程
pd.read_csv() 函数的基本用法
import pandas as pd
df = pd.read_csv('path_to_file.csv')
读取指定路径的 CSV 文件,并将其转换为一个 DataFrame
其中,DataFrame
是 Pandas 中用于处理二维表格数据的主要数据结构,类似于电子表格或者数据库中的表。
header
CSV 文件的第一行通常包含列名。如果数据没有列名,可以通过 header
参数指定:
df = pd.read_csv('path_to_file.csv', header=None)
默认header = 0
,这意味着函数会将文件的第一行作为列名。
例如,假设有一个名为data.csv
的文件,内容如下:
Name,Age,City
John,25,New York
Mary,30,Los Angeles
可以使用以下代码读取:
import pandas as pd
df = pd.read_csv("data.csv")
print(df.columns)
输出结果:
Index(['Name', 'Age', 'City'], dtype='object')
index_col
有时,CSV 文件中的某一列可以作为 DataFrame 的索引。通过 index_col
参数可以指定这一列:
df = pd.read_csv('path_to_file.csv', index_col='ID')
usecols
如果 CSV 文件列很多,但只需要读取其中的一部分列,可以使用 usecols
参数:
df = pd.read_csv('path_to_file.csv', usecols=['Column1', 'Column2'])
处理缺失值
默认情况下,pd.read_csv() 会将空值读取为 NaN。如果需要将空值替换为其他值,可以使用 na_values 参数。
处理不同的编码
如果 CSV 文件的编码不是 UTF-8,可以通过 encoding 参数指定正确的编码。
处理不均匀的数据
如果数据的分隔符不一致,可以使用正则表达式作为 sep 参数的值。
使用列名映射
如果列名不符合 DataFrame 的命名规则,可以通过 names 参数指定新的列名。