当前位置: 首页 > news >正文

【学习篇】pandas进行数据清洗

背景:最近做项目需要用到pandas进行数据清洗转化,一边DS一边开展工作,现在记录下学习到的pandas常用方法。

学习链接:https://www.runoob.com/pandas/pandas-tutorial.html

1. Pandas 特性介绍

Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。

Pandas 提供了丰富的功能,包括:

数据清洗:处理缺失数据、重复数据等。
数据转换:改变数据的形状、结构或格式。
数据分析:进行统计分析、聚合、分组等。
数据可视化:通过整合 Matplotlib 和 Seaborn 等库,可以进行数据可视化。

需要记住的示例,对自己理解pandas的数据结构有很大的帮助

在这里插入图片描述

2. Pandas 数据结构

Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据)。

Series 是一种类似于一维数组的对象,它由一组数据(各种 Numpy 数据类型)以及一组与之相关的数据标签(即索引)组成。

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

在这里插入图片描述

从下面的例子可以记住Series 和 DataFrame的关系:

在这里插入图片描述

2.1 Series 方法

注意:Series可以自定义索引。

在这里插入图片描述

此处,只列举我目前实际用到的方法,按照方法使用的频率高低进行排序:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2 DataFrame 方法

DataFrame可以将其视为多个 Series 对象组成的字典。

在这里插入图片描述

此处,只列举我目前实际用到的方法,按照方法使用的频率高低进行排序:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

常遇到的应用场景是读取CSV表格数据和将DataFrame写入取CSV表格:

在这里插入图片描述

3. Pandas 进行数据清洗

3.1 Pandas 清洗行列空值

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 Pandas 数据清洗常用方法

一如既往,此处,只列举我目前实际用到的方法,按照方法使用的频率高低进行排序:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

相关文章:

  • Vue 组件 - 动态组件
  • 蓝牙数字音频和模拟音频优劣势对比?
  • Redis-16.在Java中操作Redis-Spring Data Redis使用方式-操作有序集合类型的数据
  • hive数据仓库
  • arcgis jsapi 4.31 调用geoserver 发布的wms服务
  • Anaconda和Pycharm的区别,以及如何选择两者
  • JVM 学习计划表(2025 版)
  • 01_使用Docker将Coding上项目部署到k8s平台
  • STM32 FATFS - 在SDIO的SD卡中运行fatfs
  • Redis 缓存基础数据类型详解
  • Qt5.14.2+mingw64编译OpenCV3.4.14一次成功记录
  • 一欧元滤波器算法
  • 10、Linux C 网络编程(完整版)
  • Odoo透视图中添加自定义按钮执行后台方法
  • Python学习(二)操作列表
  • 字体格式如何解析(open-type)
  • Mysql 字段值批量自增或自减(坐标系数据,(x,y))
  • 43页可编辑PPT | 大数据管理中心设计规划方案大数据中心组织架构大数据组织管理
  • ⑧RBM(主备/主主)-二层部署案例
  • Web3.0隐私计算与云手机的结合
  • 水利部:山西、陕西等地旱情将持续
  • 世界银行最新营商环境体检单:59个测评点,上海22项达全球最优水平
  • 41年轮回,从洛杉矶奔向洛杉矶,李宁故地重游再出发
  • 《中国医药指南》就涉宫颈癌等论文出现男性病例致歉:辞退涉事编辑
  • “两高”出台司法解释,严打破坏黑土地资源犯罪
  • 李公明 | 一周画记:生活就是抵抗