当前位置: 首页 > news >正文

(一)获取数据和读取数据

获取公开数据

下载、爬虫、API

一些公开数据集网站:
在这里插入图片描述

爬虫:
发送请求获取网页源代码——解析网页源代码内容,提取数据

通过公开API获取:
API定义了两个程序之间的服务合约,即双方是如何使用请求和响应来进行通讯的
发送请求——直接获得想要的数据

读取数据

JSON(容易转换成其他数据结构,本身结构非常灵活,可以层层嵌套)

两种数据结构:
JSON对象(Python字典)、JSON数组(Python列表)

如何读取?
import pandas as pd
df = pd.read_json(文件路径)#把json文件转成DataFrame
(文件读取、json解析、转成DataFrame)
在这里插入图片描述
在这里插入图片描述
languages对应的值是一个长度为3的数组,当键值对里的值是数组时,Pandas会把数组元素视为属于不同数据实例,拆分为单独的一行。其他属性值就被复制成三行来对应上。

CSV(本身就是一个非常规整的二维结构,excel打开就能变成表格,很直观)

对于1GB+以上的csv数据集,如果用excel打开,很可能会卡到崩溃。因为excel不仅要展示数据,还要试图展示格式,还要加载一系列功能。

此时可以用代码编辑器或纯文本编辑器打开。

更好的方法是用代码读取(比用软件读取更快),转换成DataFrame。然后用Pandas库里的方法,想看几行看几行。而不用把海量数据全部加载出来。

如何读取?
df = pd.read_csv(文件路径)#把csv文件转成DataFrame

列名
默认把第一行作为列名,如果本身没有header,而是以实际数据开头,可以设置header=None(表示不要把第一行当成列名)

标签索引
默认用位置索引。如果想把某列当成标签索引,可以传入index_col参数,令index_col=某列名
在这里插入图片描述
展示省略的中间列
默认展示20列,如果想提升展示的列数上限,可以用
pd.set_option(“display.max_columns”,150)
df.head(3)

即使值很长,也要展示完
默认每列的值最多展示50个字符,
pd.set_option(“display.max_colwidth”,500)
把上限调整为500个字符

获取结尾n行
df.tail(n) 默认5行

随机抽取n行
df.sample(n) 默认1行

获取DataFrame概况
df.info()
在这里插入图片描述
获取数字列的统计信息
df.describe()

相关文章:

  • Android:播放Rtsp视频流的两种方式
  • 【工业安全】-CVE-2022-35561- Tenda W6路由器 栈溢出漏洞
  • 网络技术介绍
  • spring集成activiti流程引擎(源码)
  • 微服务SpringCloud Alibaba组件nacos教程【详解naocs基础使用、服务中心配置、集群配置,附有案例+示例代码】
  • 如何通过AI轻松制作PPT?让PPT一键生成变得简单又高效
  • 【AWS】EC2 安全组设置
  • Elasticvue使用总结
  • 《C++ Primer》学习笔记(一)
  • MyBatis拦截器终极指南:从原理到企业级实战
  • SOUI基于Zint生成Code11码
  • LabVIEW与小众设备集成
  • XSS 常用标签及绕过姿势总结
  • React 初级教程
  • RadASM环境,win32汇编入门教程之三
  • 数论补充 之 前后缀分解问题
  • Word 公式转 CSDN 插件 发布
  • 使用Node.js进行串口通信
  • 1.推荐算法基本概念
  • 基于Ceedling的嵌入式软件单元测试
  • 国台办:民进党当局所谓“对等尊严”,就是企图改变两岸同属一中
  • 武汉楼市新政:二孩、三孩家庭购买新房可分别享受6万元、12万元购房补贴
  • 《求是》杂志发表习近平总书记重要文章《激励新时代青年在中国式现代化建设中挺膺担当》
  • 济南高新区一季度GDP增长8.5%,第二产业增加值同比增长14.4%
  • 李铁案二审驳回上诉,维持一审有期徒刑20年的判决
  • 巴西外长维埃拉:国际形势日益复杂,金砖国家必须发挥核心作用