pandas方法集
pandas 方法全集(方法名 + 用途)
说明:本清单按主题与对象分区,采用「方法名:用途」的简要格式,覆盖
pandas
常用到中高级 API。若同名方法同时适用于Series
与DataFrame
,默认两者均支持(特别例外将注明)。
目录
mindmaproot((pandas 方法))顶层构造与核心对象IO 读写(pd 顶层)通用属性与基本方法(Series/DataFrame)数据选择与切片对齐与重建索引缺失值处理重塑与变形连接与合并分组与聚合(GroupBy/Resampler)统计与描述数学与元素级运算窗口计算(Rolling/Expanding/EWM)字符串处理(Series.str)日期时间访问器(Series.dt)分类数据(Series.cat)时间序列与频率索引对象(Index/RangeIndex/MultiIndex/DatetimeIndex)DataFrame 结构操作(列/行)排序与排名去重与对齐应用与自定义函数可视化与样式稀疏与扩展类型选项与显示(pd)错误检查与类型判断高级主题与其他常见构造辅助(pd)已弃用 / 注意事项
1. 顶层构造与核心对象
pd.Series
:一维带标签数组pd.DataFrame
:二维表格数据结构pd.Index
/pd.MultiIndex
:索引 / 多级索引pd.Categorical
:分类数据标量 / 数组pd.Interval
/pd.IntervalIndex
:区间与区间索引pd.Timestamp
/pd.Timedelta
/pd.Period
:时间戳 / 时间差 / 时期pd.array
:创建扩展数组pd.CategoricalDtype
/pd.ArrowDtype
:分类 / Arrow 扩展 dtype
2. IO 读写(pd 顶层)
read_csv
/to_csv
:CSV 读写read_table
:分隔文本读取read_excel
/to_excel
:Excel 读写read_json
/to_json
:JSON 读写read_parquet
/to_parquet
:Parquet 读写read_feather
/to_feather
:Feather 读写read_orc
/to_orc
:ORC 读写read_sas
:SAS 文件读取read_stata
/to_stata
:Stata 读写read_spss
:SPSS 读取read_pickle
/to_pickle
:pickle 读写read_hdf
/to_hdf
:HDF5 读写read_sql
/read_sql_query
/read_sql_table
/to_sql
:SQL 读写read_html
:HTML 表格读取read_clipboard
/to_clipboard
:剪贴板读写
3. 通用属性与基本方法(Series/DataFrame)
shape
/ndim
/size
:维度 / 轴数 / 元素数dtypes
/astype
:数据类型查看 / 转换index
/columns
(DF)/name
(Series)/rename
:索引与命名set_axis
/set_index
/reset_index
:设置轴 / 设置索引 / 重置索引copy
:拷贝head
/tail
:前 N / 后 N 行sample
:随机抽样memory_usage
:内存占用info
(DF):结构与内存信息select_dtypes
(DF):按 dtype 选列pipe
:函数式管道convert_dtypes
:推断更合理的可空 dtype
4. 数据选择与切片
[]
:按列名(DF)/ 位置(Series)/ 布尔筛选loc
:标签索引iloc
:位置索引at
/iat
:标量快速取 / 设get
:安全获取列(DF)或键(Series)filter
:按标签模式筛选
5. 对齐与重建索引
reindex
/reindex_like
:按新索引 / 模板重建sort_index
/sort_values
:按索引 / 值排序rename_axis
:重命名轴swaplevel
/reorder_levels
(MI):层级交换 / 重排droplevel
(MI):删除层级
6. 缺失值处理
isna
/isnull
/notna
/notnull
:缺失检测dropna
:删除缺失fillna
:填充缺失interpolate
:插值填补ffill
/bfill
:向前 / 向后填充(fillna(method=...)
)
7. 重塑与变形
pivot
/pivot_table
:透视表melt
:列转行(反透视)stack
/unstack
:层级堆叠 / 展开wide_to_long
:宽表转长表explode
:列表列爆炸为多行get_dummies
:类别独热编码crosstab
(pd):列联表
8. 连接与合并
merge
:按键合并(SQL 风格)merge_asof
:按顺序近邻连接(时间序列常用)concat
:按轴拼接join
(DF):索引连接append
(已弃用):请改用concat
9. 分组与聚合(GroupBy/Resampler)
groupby
:分组agg
/aggregate
:聚合transform
:组内变换并对齐原形状filter
:按组过滤- 常用聚合:
sum
/mean
/median
/min
/max
/count
/size
/std
/var
/sem
/prod
/nth
/first
/last
resample
:按时间频率重采样ngroup
/cumcount
:组编号 / 组内累计计数rank
:排名
10. 统计与描述
describe
:描述统计value_counts
:去重计数unique
/nunique
:唯一值 / 数量quantile
:分位数corr
/cov
:相关 / 协方差skew
/kurt
:偏度 / 峰度idxmin
/idxmax
:最小 / 最大值位置clip
:裁剪到区间abs
/round
:绝对值 / 四舍五入cummax
/cummin
/cumsum
/cumprod
:累计统计diff
/pct_change
:差分 / 环比
11. 数学与元素级运算
add
/sub
/mul
/div
/pow
:对齐算术radd
/rsub
等:反向算术floordiv
/mod
:整除 / 取模where
/mask
:条件替换compare
(DF):逐元素比较eq
/ne
/gt
/ge
/lt
/le
:比较运算
12. 窗口计算(Rolling/Expanding/EWM)
rolling
:滑动窗口expanding
:扩张窗口ewm
:指数加权窗口- 窗口方法:
mean
/sum
/std
/var
/min
/max
/median
/quantile
/corr
/cov
/apply
13. 字符串处理(Series.str)
str.lower
/upper
/title
/strip
:大小写 / 去空白str.contains
/match
/fullmatch
:模式匹配str.replace
:替换(可正则)str.extract
/extractall
:正则提取str.split
/rsplit
/partition
:分割str.get
/slice
/slice_replace
:切片 / 替换str.len
:长度str.pad
/zfill
/ljust
/rjust
:填充对齐str.find
/rfind
/startswith
/endswith
:查找匹配str.cat
:字符串拼接str.encode
/decode
:编解码str.wrap
:换行str.normalize
:Unicode 规范化
14. 日期时间访问器(Series.dt)
dt.year
/month
/day
/hour
/minute
/second
:时间字段dt.week
(旧)/isocalendar
/dayofweek
/day_name
:周相关dt.date
/time
/tz
:日期 / 时间 / 时区dt.to_period
/to_pydatetime
/tz_localize
/tz_convert
:时期 / 转换 / 时区dt.floor
/ceil
/round
:对齐到频率dt.normalize
:归一化为午夜dt.days
/seconds
/components
:timedelta 组件
15. 分类数据(Series.cat)
cat.set_categories
/reorder_categories
:设置 / 重排类别cat.add_categories
/remove_categories
:增删类别cat.rename_categories
:重命名类别cat.as_ordered
/as_unordered
:有序 / 无序cat.codes
:类别编码
16. 时间序列与频率
to_datetime
/to_timedelta
/to_period
(pd):类型转换date_range
/period_range
/bdate_range
:生成时间索引- 偏移对象:如
offsets.BDay
、MonthEnd
等 resample
:按频率重采样(聚合)asfreq
:改变频率(不聚合)shift
:位移- 时间窗口滚动:
rolling('7D')
等
17. 索引对象(Index/RangeIndex/MultiIndex/DatetimeIndex)
take
/putmask
:按位置取 / 按掩码放- 集合运算:
union
/intersection
/difference
/symmetric_difference
isin
:成员检测get_loc
/slice_indexer
:定位器duplicated
/drop_duplicates
:去重sort_values
/sortlevel
(MI):排序set_names
/rename
:命名- 构造 MI:
from_product
/from_arrays
/from_tuples
18. DataFrame 结构操作(列/行)
assign
:新增或变换列insert
:按位置插入列drop
:删除行 / 列pop
:弹出列update
:用另一对象的非缺失更新- 重排列:
reindex(columns=...)
T
:转置set_flags
/flags
:行为标志(如只读)
19. 排序与排名
sort_values
:按列或 Series 排序sort_index
:按索引排序nlargest
/nsmallest
:取前 K 大 / 小rank
:排名(多种平级策略)
20. 去重与对齐
drop_duplicates
/duplicated
:去重 / 标识重复equals
:结构与值完全相等combine_first
:用另一对象非缺失补全align
:对齐到共同索引 / 列
21. 应用与自定义函数
apply
:按轴应用函数applymap
(DF):逐元素应用map
(Series):映射aggregate
/agg
:聚合(函数或字典)transform
:形状不变的组 / 列转换eval
/query
:表达式求值 / 查询(字符串 DSL)
22. 可视化与样式
plot
/plot.line
/bar
/barh
/hist
/box
/kde