当前位置: 首页 > news >正文

人工智能备考——2.1.4题解

代码题:

1)加载数据集并指定编码为gbk

题目:data = _________

关键字加载数据集,想到pandas函数里面的read函数(最基础的,最常见的)

所以最后填入data = pd.read_csv('medical_data.csv')

2)查看表结构基本信息

题目:print(_________)
查看结构基本信息,想到data.info()函数(查看表结构都使用info),使用head()函数有些地方也能用,但是info()为最正确的答案,想不到的时候去使用head()函数
所以最后填入:print(data.info())

3)修改列名

题目:_________(_________, inplace=True)

修改列名,想到rename函数,这个其实比较好想重命名的英文就是rename嘛,然后需要修改列,想到colums=列名

所以最后填入:data.rename(columns={'病人ID': '患者ID'}, inplace=True)

4)增加诊断延迟和病程列
题目:data['诊断延迟'] = _________.dt.days

诊断延迟,从题目中能看出来是诊断日期-就诊日期,

所以最后填入:data['诊断延迟'] = (data['诊断日期'] - data['就诊日期']).dt.days

5)删除不合理的数据

题目:data = _________[(_________ >= 0) & (_________ > 0) & (_________ < 120)]

看到删除会立马想到drop函数,dropna是删除空值,drop_duplicates是删除重复值

但是这里不太一样,这里的这个格的形式更像重新赋值,将data内对应符合条件的内容筛选出来,以此来达到删除的目的

所以最后其实里面只要把题目中的筛选条件放入其中就行

最后填入:data = data[(data['诊断延迟'] >= 0) & (data['年龄'] > 0) & (data['年龄'] < 120)]

6)删除重复值并记录删除的行数

题目:_________(inplace=True)

删除重复值:看到这个就该联想到drop_duplicates

所以填入:data.drop_duplicates(inplace=True)

7)对需要归一化的列进行处理

题目:scaler = MinMaxScaler()
columns_to_normalize = [_________]
data[columns_to_normalize] = _________

归一化需要联想到fit_transform

第一空是先从题目中找到需要归一化的列:'年龄', '体重', '身高'

然后第二空就是直接套语法就好了:scaler.transform(归一化数据)

所以最后填入
scaler = MinMaxScaler()
columns_to_normalize = ['年龄', '体重', '身高']
data[columns_to_normalize] = scaler.fit_transform(data[columns_to_normalize])

8)绘制柱状图

题目:_________(_________, stacked=True)

这个会比较难,首先需要找到需要进行柱状图绘制的数据

从题目和上文的题目中可以知道是:统计治疗结果分布treatment_outcome_distribution

然后背一下柱状图的函数是.plot

所以最后填入:treatment_outcome_distribution.plot(kind='bar', stacked=True)

9)绘制散点图

题目:_________(_________, _________)

从后面的代码和题目中可以看出来这个是年龄与疾病严重程度的散点图

所以后面两空就填入data['年龄'], data['疾病严重程度']

散点图是函数.scatter

所以最后填入:plt.scatter(data['年龄'], data['疾病严重程度'])

10)保存处理后得数据

题目:output_path = '2.1.4_cleaned_data.csv'
_________(_________, index=False)

保留处理后的数据,直接想到data.to_csv(文件名,index=False)

所以最后填入

data.to_csv(output_path,index=False)

主观题:

制定数据清洗和数据标注规范,将答案写到答题卷文件中,答题卷文件命名为“2.1.4.docx”,保存到考生文件夹;

从题干里写数据清洗规范和数据标注规范。

数据清洗规范,至少2点。

1 加载数据集,查看表的数据类型,表结构。

2 删除不合理的数据

3 检查并删除重复值

4 归一化处理

5 顺带写上,保存清洗后的数据

注意,别带业务。

数据标注规范:

1 标注特征值和目标值。

2 数据划分: 将数据分为训练集和测试集

标注规范要写3点,所以还可以写如下的几点。

1 标注数据来源,具体可以标注数据的提供者,数据集文件名和文件大小,以及数据提供的日期。

2 标注数据描述信息,具体可以标注每个字段的含义,单位和数据范围。

3 保存处理后的数据,标注存储位置和文件名。

4 用文档来记录标准流程和要点。

http://www.dtcms.com/a/606273.html

相关文章:

  • 做淘宝网站需要什么邵阳市城市建设网站
  • 告别闭门造车:用竞品ASO分析驱动应用下载转化
  • 【LeetCode】108. 将有序数组转换为二叉搜索树
  • 12.vector—string(下)
  • 具身智能数据采集全方案:动作捕捉技术驱动机器人拟人化进阶
  • 公司网站地图怎么做长沙网站托管优化
  • 网站免费创建雅虎搜索
  • 多通道手腕压力脉搏波信号
  • 眉县网站建设wordpress首页flash
  • 贪心算法实验2
  • C语言在线编译器开发 | 提高编译效率与用户体验的创新技术
  • MD5 校验脚本
  • 重生归来,我要成功 Python 高手--day35 深度学习 Pytorch
  • 马云有没有学过做网站百度收录时间
  • 企业网站的规划与建设ppt建设一个打鱼游戏网站
  • 在 Linux Ubuntu 24.04 安装 IntelliJ IDEA
  • 自适应网站建设方案建设网站 请示 报告
  • 有哪些做网站的品牌ios开发app
  • C语言编译器电脑版 | 提供高效编译体验,轻松学习与开发
  • 容器访问某个链接中断后面又正常,socket
  • 构建现代应用的9个Python GUI库
  • 做网站业务的怎么寻找客户做网站公司哪家强
  • 【第1章>第6节】基于FPGA的图像膨胀处理算法的Verilog实现
  • 网站开发对企业的关键化妆品首页设计
  • 基于图的可解释性推荐综述
  • Nginx搭建RTMP点播流媒体服务器步骤详解,Nginx+RTMP+OBS推流搭建流媒体服务器
  • 东莞建设网站官网住房和城乡网站平台系统设计公司
  • 具身智能-一文详解视觉-语言-动作(VLA)大模型(2)
  • 如何使用 Docker 打包一个简单的应用程序:简易指南
  • Hyper-V Windows 11 Pro x64 开局问题