当前位置: 首页 > news >正文

AI——使用pandas

文章目录

  • 1、pandas介绍
  • 2、为什么使用pandas
  • 3、pandas的数据结构
    • 1、Series
    • 2、DataFrame
    • 3、MultiIndex
  • 4、pandas基本数据操作
    • 1、索引操作
    • 2、赋值操作
    • 3、排序
    • 4、算术运算
    • 5、逻辑运算
    • 6、逻辑运算函数
    • 7、统计函数
    • 8、累计统计函数
    • 9、自定义运算
  • 5、pandas读取文件和存储
    • 1、csv文件
    • 2、HDF5
    • 3、JSON
  • 6、使用pandas连接数据库
    • 1、安装sqlalchemy
    • 2、使用read_sql()函数读取数据
  • 7、pandas高级用法
    • 1、缺失值处理
    • 2、数据离散化
    • 3、合并
    • 4、交叉表和透视表
    • 5、分组与聚合

需要使用的库

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

1、pandas介绍

  • 专门用于数据挖掘的开源python库
  • 以numpy为基础,借力numpy模块在计算方面性能高的优势
  • 基于matplotlib,能够简便的画图
  • 独特的数据结构

2、为什么使用pandas

Numpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,那么pandas学习的目的在什么地方呢?

  • 增强图表可读性
    在这里插入图片描述
  • 便捷的数据处理能力
    在这里插入图片描述

3、pandas的数据结构

pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex。
其中Series是一维数据结构,DataFrame是二维表格型数据结构,MultiIndex是三维的数据结构。

1、Series

Series是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据和与之相关的索引两部分构成。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2、DataFrame

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3、MultiIndex

在这里插入图片描述

4、pandas基本数据操作

在这里插入图片描述

1、索引操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2、赋值操作

在这里插入图片描述

3、排序

在这里插入图片描述
在这里插入图片描述

4、算术运算

在这里插入图片描述
在这里插入图片描述

5、逻辑运算

在这里插入图片描述

6、逻辑运算函数

在这里插入图片描述

7、统计函数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8、累计统计函数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

9、自定义运算

在这里插入图片描述

5、pandas读取文件和存储

1、csv文件

在这里插入图片描述

  • 1、读取csv文件方法
    在这里插入图片描述
  • 2、保存csv
    在这里插入图片描述

2、HDF5

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

3、JSON

在这里插入图片描述
在这里插入图片描述

6、使用pandas连接数据库

1、安装sqlalchemy

在这里插入图片描述

2、使用read_sql()函数读取数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7、pandas高级用法

1、缺失值处理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2、数据离散化

  • 1、为什么要离散化
    连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数,离散化方法经常作为数据挖掘的工具

  • 2、什么是数据的离散化
    连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性值。
    离散化有很多种方法,这使用一种最简单的方式去操作

    • 原始人的身高数据:165、174、160、180、159、163、192、184
    • 假设我们按照身高分几个区间:150-165、165-180、180-195
      这样我们将数据分到三个区间段,我们可以对应的标记为矮、中、高三个类别,最终要处理成一个"哑变量"的矩阵
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

3、合并

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4、交叉表和透视表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 上面获取这个透视表的步骤,可以用一个函数代替
    在这里插入图片描述

5、分组与聚合

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

相关文章:

  • 深入解析嵌入模型Embedding :从理论到实践的全方位指南
  • 微服务的服务调用详解以及常见解决方案对比
  • 软件测试——测试概念
  • CCLK IE转EtherCAT凭借网关模块实现三菱PLC与汇川伺服精准通讯的实用案例​
  • 107.二叉树的层序遍历II- 力扣(LeetCode)
  • opencv(C++)用直方图统计像素
  • 动态多目标优化:基于可学习预测的动态多目标进化算法(DIP-DMOEA)求解CEC2018(DF1-DF14),提供MATLAB代码
  • pair与tuple
  • 缓存与数据库一致性:从问题到解决方案全解析
  • 04-微服务 面试题-mk
  • 斐波那契数列 (Fibonacci Sequence) C++
  • 0.DockerCE起步之Linux相关【完善中】
  • 提示词 (Prompt)
  • 树上搜索 第32次CCF-CSP计算机软件能力认证
  • 激光院董事长龚赤坤到北京研发中心检查指导工作
  • 深入解析 Spring AI ChatClient:构建高效 AI 应用的终极指南
  • 2025年3月 Scratch图形化四级 真题解析 中国电子学会全国青少年软件编程等级考试
  • ida 使用记录
  • 基于javaweb的SpringBoot新闻视频发布推荐评论系统(源码+部署文档)
  • Windows系统Python多版本运行解决TensorFlow安装问题(附详细图文)
  • 微信公众号登录wordpress网站/色盲测试图免费测试
  • 网站建设项目申请/网络营销主要有哪些特点
  • 做兼职什么网站比较好/百度北京总部电话
  • 公司网站开发费用放在什么科目/中国进入全国紧急状态
  • 小型局域网组建方案/核心关键词如何优化
  • 怎样增加网站流量/深圳推广优化公司