当前位置: 首页 > news >正文

【学习篇】pandas进行数据清洗

背景:最近做项目需要用到pandas进行数据清洗转化,一边DS一边开展工作,现在记录下学习到的pandas常用方法。

学习链接:https://www.runoob.com/pandas/pandas-tutorial.html

1. Pandas 特性介绍

Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。

Pandas 提供了丰富的功能,包括:

数据清洗:处理缺失数据、重复数据等。
数据转换:改变数据的形状、结构或格式。
数据分析:进行统计分析、聚合、分组等。
数据可视化:通过整合 Matplotlib 和 Seaborn 等库,可以进行数据可视化。

需要记住的示例,对自己理解pandas的数据结构有很大的帮助

在这里插入图片描述

2. Pandas 数据结构

Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据)。

Series 是一种类似于一维数组的对象,它由一组数据(各种 Numpy 数据类型)以及一组与之相关的数据标签(即索引)组成。

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

在这里插入图片描述

从下面的例子可以记住Series 和 DataFrame的关系:

在这里插入图片描述

2.1 Series 方法

注意:Series可以自定义索引。

在这里插入图片描述

此处,只列举我目前实际用到的方法,按照方法使用的频率高低进行排序:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2 DataFrame 方法

DataFrame可以将其视为多个 Series 对象组成的字典。

在这里插入图片描述

此处,只列举我目前实际用到的方法,按照方法使用的频率高低进行排序:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

常遇到的应用场景是读取CSV表格数据和将DataFrame写入取CSV表格:

在这里插入图片描述

3. Pandas 进行数据清洗

3.1 Pandas 清洗行列空值

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 Pandas 数据清洗常用方法

一如既往,此处,只列举我目前实际用到的方法,按照方法使用的频率高低进行排序:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


文章转载自:
http://adenosis.zzgtdz.cn
http://billycock.zzgtdz.cn
http://antiquated.zzgtdz.cn
http://agonistic.zzgtdz.cn
http://byzantine.zzgtdz.cn
http://audiogenic.zzgtdz.cn
http://biomaterial.zzgtdz.cn
http://chieftaincy.zzgtdz.cn
http://attached.zzgtdz.cn
http://bertrand.zzgtdz.cn
http://avarice.zzgtdz.cn
http://blissfully.zzgtdz.cn
http://ceremonious.zzgtdz.cn
http://bedesman.zzgtdz.cn
http://catalysis.zzgtdz.cn
http://chronopher.zzgtdz.cn
http://bioscope.zzgtdz.cn
http://bargirl.zzgtdz.cn
http://capework.zzgtdz.cn
http://acheb.zzgtdz.cn
http://amicability.zzgtdz.cn
http://ace.zzgtdz.cn
http://breastwork.zzgtdz.cn
http://balkanize.zzgtdz.cn
http://astrometer.zzgtdz.cn
http://antherozoid.zzgtdz.cn
http://bunchgrass.zzgtdz.cn
http://aminate.zzgtdz.cn
http://adrift.zzgtdz.cn
http://calculable.zzgtdz.cn
http://www.dtcms.com/a/105761.html

相关文章:

  • Vue 组件 - 动态组件
  • 蓝牙数字音频和模拟音频优劣势对比?
  • Redis-16.在Java中操作Redis-Spring Data Redis使用方式-操作有序集合类型的数据
  • hive数据仓库
  • arcgis jsapi 4.31 调用geoserver 发布的wms服务
  • Anaconda和Pycharm的区别,以及如何选择两者
  • JVM 学习计划表(2025 版)
  • 01_使用Docker将Coding上项目部署到k8s平台
  • STM32 FATFS - 在SDIO的SD卡中运行fatfs
  • Redis 缓存基础数据类型详解
  • Qt5.14.2+mingw64编译OpenCV3.4.14一次成功记录
  • 一欧元滤波器算法
  • 10、Linux C 网络编程(完整版)
  • Odoo透视图中添加自定义按钮执行后台方法
  • Python学习(二)操作列表
  • 字体格式如何解析(open-type)
  • Mysql 字段值批量自增或自减(坐标系数据,(x,y))
  • 43页可编辑PPT | 大数据管理中心设计规划方案大数据中心组织架构大数据组织管理
  • ⑧RBM(主备/主主)-二层部署案例
  • Web3.0隐私计算与云手机的结合
  • AI Agent 中的 MCP 模型上下文协议详解
  • 基于Matlab实现DCT数字水印添加提取和干扰测试
  • scGPT环境安装
  • 2025年企业级开源治理实践与思考
  • 边缘计算网关是什么?
  • JavaScript 深拷贝:手写一个简单可靠的 `deepClone` 函数
  • 2025华为软件精英挑战赛2600w思路分享
  • 互联网 Java 面试八股文汇总(2025 最新整理,持续更新)
  • 装饰器模式详解
  • 智能体项目实现AI对话流式返回效果