当前位置: 首页 > news >正文

人工智能训练师备考——2.1.2题解

从2.1题型和1.1题型不完全一致,除去代码题他还有主观题,前一篇的2.1.1遗漏了,我之后会补上

备考+题解,内容会比较干,耐心学习,一起进步吧,追梦者!

代码题

1.读取一个Excel文件,并将读取到的数据存储在变量data中

题目:data = __________

经典题但是有变动,可以看到原先的数据集全是csv,现在变成读取excle文件了

所以最终填入pd.read_excle('大学生低碳生活行为的影响因素数据集.xlsx')

2.处理数据集中的缺失值

题目:initial_row_count = __________   #处理前的数据行数
data = __________                #删除缺失值所在行
final_row_count = __________     #处理后的数据行数

记录数据行数使用shape[0]函数去记录数据行数

使用第一空填入data.shape[0]

第二空删除缺失值所在行,删除使用drop,缺失值所在行,就是将缺失值全部删除所以使用dropna函数

第二空填入data.dropna()

第三空也是记录数据行数还是使用shape函数

所以第三空填入 data.shape[0]

3.删除重复行

题目:data = __________

使用drop_duplicates()函数duplicates 是重复的意思,

所以最终填入data.drop_duplicates()

4.对数据进行标准化处理

题目:from sklearn.preprocessing import StandardScaler
numerical_features = ['4.您的月生活费○≦1,000元   ○1,001-2,000元   ○2,001-3,000元   ○≧3,001元']
scaler = StandardScaler()
data[numerical_features] = __________

进行数据标准化需要使用fit_transform函数

然后对应处理的数据是numerical_features

所以最后填入scaler.fit_transform(data[numerical_features])

5.选择特征

题目:selected_features = [__________]
X = __________

特征在题目中给过

选择以下特征: 1.您的性别○男性 ○女性 2.您的年级○大一 ○大二 ○大三 ○大四   3.您的生源地○农村 ○城镇(乡镇) ○地县级城市 ○省会城市及直辖市 4.您的月生活费○≦1,000元 ○1,001-2,000元 ○2,001-3,000元 ○≧3,001元 5.您进行过绿色低碳的相关生活方式吗? 6.您觉得“低碳”,与你的生活关系密切吗? 7.低碳生活是否会成为未来的主流生活方式? 8.您是否认为低碳生活会提高您的生活质量?

所以第一空方括号内就填入对应的特征

最终填入selected_features = ['1.您的性别○男性 ○女性','2.您的年级○大一 ○大二 ○大三 ○大四','3.您的生源地○农村 ○城镇(乡镇) ○地县级城市 ○省会城市及直辖市','4.您的月生活费○≦1,000元 ○1,001-2,000元 ○2,001-3,000元 ○≧3,001元','5.您进行过绿色低碳的相关生活方式吗?','6.您觉得“低碳”,与你的生活关系密切吗?','7.低碳生活是否会成为未来的主流生活方式?','8.您是否认为低碳生活会提高您的生活质量?']

第二空就是将selected_features数据赋值给X

所以第二空填入data[selected_features](注意不需要加双引号,因为他是我们已经定义好的变量而不是里面的数据)

6. 创建目标变量

题目:y = __________

这里同上一空的X一样是给y进行赋值,我们从题目中找到,将“低碳行为积 极性”设为目标变量并标注。所以y中的值应该是低碳行为积极性,而特征中只要5是和这个相关的

所以最终填入y = data['5.您进行过绿色低碳的相关生活方式吗?'](注意这里需要双引号是因为5是对应的数据列,所以需要)

7.数据划分(测试集取20%)

题目:from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = __________(__________, random_state=42)

数据划分使用的为sklearn.model_selection,而题目中将其import为train_test_split,

所以第一空填入train_test_split

需要划分的数据为X,y

所以第二空填入X,y(因为这个是我们定义好的变量所以不需要双引号)

所以最终为:X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

8.合并处理后得数据,并将其保存(保存中不用额外创建索引)

题目:cleaned_data = __________(__________, axis=1)
__________('2.1.2_cleaned_data.csv', __________)

合并处理数据需要使用pandas里面的函数concat去做合并处理

所以第一空我们需要填入pd.concat

合并的数据为X,y,但是concat的语法要求X,y需要使用【】框定起来

所以最终填入:cleaned_data = pd.concat([X, y], axis=1)

第二空保存数据到csv文件中

所以我们使用to_csv

最终填入:cleaned_data.to_csv('2.1.2_cleaned_data.csv', index=Flase)

主观题

制定数据清洗规范(2分)

根据题目内容填入

1.加载数据集,显示前5行数据

2.检查并删除数据缺失值与重复值

3.标准化处理数据

4.保存处理好的数据

制定特征工程规范(3分)

1.标注特征特征值与目标值

2.划分数据,将数据集划分为训练集与测试集

题干只给了2点,可以写一些通用的,凑3分(以下基本上都是通用的,可以照搬)

1 标注数据来源,具体可以标注数据的提供者,数据集文件名和文件大小,以及数据提供的日期。

2 标注数据描述信息,具体可以标注每个字段的含义,单位和数据范围。

3 保存处理后的数据,标注存储位置和文件名。

4 用文档来记录标准流程和要点。

http://www.dtcms.com/a/574180.html

相关文章:

  • 网站设置反爬虫的常用方法有哪些附近的灯箱广告制作
  • 基于单片机的太阳能光伏板自动调整系统(论文+源码)
  • 济南网站建设与优化coding.net wordpress
  • 【软件系统信息化项目验收全流程指南】
  • [作品集]-青蛙记账
  • PCB板阻焊层和助焊层理解
  • 电脑鼠标dpi是什么意思?实用设置教程分享
  • 网站开发开票编码归属石家庄工程造价信息网官网
  • Parasoft C/C++test如何解决在VC6环境中单元测试的LNK2005错误
  • 从零打造Godot游戏:丛林探险开发实录
  • pytest的使用
  • 神经网络—— 学习与感知器
  • 聊城网站建设价格能做门户网站带论坛功能的cms
  • 有没有专门发布毕业设计代做网站衡阳市本地新闻头条
  • 网站跟app的区别是什么电商网站对比 京东商城 淘宝网 阿里巴巴
  • 天空星GD32F4系列开发板移植FreeRTOS超详细教程(基于Keil环境)
  • 告别漫长GC停顿:深入解析G1如何实现可预测的毫秒级响应
  • 开发小型门户网站的方法 步骤十大不收费看盘网站
  • 教怎么做ppt的网站网站域名icp备案
  • 如何用AI创建一个适合你的编程社区用户名
  • 计算机网络自顶向下方法33——网络层 路由器工作原理 输入端口处理和基于目的地转发 交换 输出端口处理
  • [RE2] Regexp对象 | shared_ptr | AST树
  • Redis Desktop Manager(Redis可视化工具)安装
  • 家务机器人
  • yolo 获取异常样本 yolo 异常
  • 解析几何——求点A到点B和C组成直线的垂线的距离,以及点到线段的距离
  • 网校 039 网站建设多少钱济南做微网站推广
  • 一台云服务器可以做多少个网站国外网站在国内备案
  • 应用案例实践 | 基于“隐语SecretFlow”多方安全分析的智能化理赔
  • 北京做erp报价的网站做网站用vue吗