Python关于pandas的基础知识
一.扫盲
(一)、pandas 是什么
pandas 是 Python 的一个第三方数据处理库,它提供了高效、灵活的数据结构(如 Series 和 DataFrame),能方便地对结构化数据进行清洗、转换、分析和处理。
(二)、pandas 与 NumPy 的关系
NumPy 是 Python 中用于科学计算的基础库,主要用于存储和处理数值型数组。但它有一个局限,就是不能直接存储和处理字符串等非数值类型的数据。
而 pandas 是在 NumPy 的基础上构建的,它不仅继承了 NumPy 对数值型数据的处理能力,还扩展了对字符串、日期等多种数据类型的支持,能更好地应对复杂的结构化数据处理场景。
(三)、为何需要用 pandas 处理 Excel 文件
在日常办公中,Excel 文件是非常常用的数据存储和处理格式。但如果仅依靠 Excel 软件本身进行大量数据的复杂处理,效率往往较低。
这时候就需要用到 pandas,它可以轻松读取和写入 Excel 文件,并且能通过简洁的代码实现数据筛选、排序、分组、计算等操作,大幅提升数据处理效率。
(四)、哪些行业常用 Excel 且适合用 pandas
很多行业在工作中频繁使用 Excel,其中金融行业、投行尤为典型。这些行业需要对大量的财务数据、交易数据、市场数据等进行编排、统计和分析计算,借助 pandas 能快速完成复杂的数据处理任务,提高工作效率和准确性。
(五)、openpyxl 库
除了 pandas,还有一个名为openpyxl的 Python 库,它可以直接读取和写入 Excel 文件。同时,openpyxl 还能模拟 pandas 的部分功能,在一些特定场景下为 Excel 文件处理提供更多选择。
(六).安装
- 点击顶部菜单栏 “File”(文件)→ “Settings”(设置)(或直接按
Ctrl + Alt + S
快捷键打开设置)。 - 在设置左侧列表,找到并点击 “Project: [你的项目名称]” → “Python Interpreter”(Python 解释器) 。
- 在右侧 “Python Interpreter” 界面,点
+
号(“Add” 按钮),打开包搜索安装窗口,搜索你需要的第三方库(如pandas
numpy
等 ),再点击 “Install Package” 安装即可。
二.代码演示
"""
DataFrame(数据框)
就是excel表(多个Series的拼接)
"""
import pandas as pddf_1 = pd.DataFrame({'age':[10,11,12],'name':['tim', 'tom', 'rose'],'income':[100,200,300]},index=['person1', 'person2', 'person3'])
print(df_1)"""
dataframe的属性
"""
#行索引
df_1.index
#列名
df_1.columns
#值
df_1.valuesdf_1 = pd.DataFrame({'age':[10,11,12],'name':['tim', 'tom', 'rose'],'income':[100,200,300]})
print(df_1)
print(df_1.name)
在这个代码里面我们可以看到在6行 pandas 数据类型是dataframe numpy的数据类型是ndnarry
其中
df_1 = pd.DataFrame({'age':[10,11,12],'name':['tim', 'tom', 'rose'],'income':[100,200,300]},index=['person1', 'person2', 'person3'])
在DataFrame后面的数据是可以全部强制转化表格数据的类型,
#效果展示: