人工智能训练师备考——2.1.2题解
从2.1题型和1.1题型不完全一致,除去代码题他还有主观题,前一篇的2.1.1遗漏了,我之后会补上
备考+题解,内容会比较干,耐心学习,一起进步吧,追梦者!
代码题
1.读取一个Excel文件,并将读取到的数据存储在变量data中
题目:data = __________
经典题但是有变动,可以看到原先的数据集全是csv,现在变成读取excle文件了
所以最终填入pd.read_excle('大学生低碳生活行为的影响因素数据集.xlsx')
2.处理数据集中的缺失值
题目:initial_row_count = __________ #处理前的数据行数
data = __________ #删除缺失值所在行
final_row_count = __________ #处理后的数据行数
记录数据行数使用shape[0]函数去记录数据行数
使用第一空填入data.shape[0]
第二空删除缺失值所在行,删除使用drop,缺失值所在行,就是将缺失值全部删除所以使用dropna函数
第二空填入data.dropna()
第三空也是记录数据行数还是使用shape函数
所以第三空填入 data.shape[0]
3.删除重复行
题目:data = __________
使用drop_duplicates()函数duplicates 是重复的意思,
所以最终填入data.drop_duplicates()
4.对数据进行标准化处理
题目:from sklearn.preprocessing import StandardScaler
numerical_features = ['4.您的月生活费○≦1,000元 ○1,001-2,000元 ○2,001-3,000元 ○≧3,001元']
scaler = StandardScaler()
data[numerical_features] = __________
进行数据标准化需要使用fit_transform函数
然后对应处理的数据是numerical_features
所以最后填入scaler.fit_transform(data[numerical_features])
5.选择特征
题目:selected_features = [__________]
X = __________
特征在题目中给过
选择以下特征: 1.您的性别○男性 ○女性 2.您的年级○大一 ○大二 ○大三 ○大四 3.您的生源地○农村 ○城镇(乡镇) ○地县级城市 ○省会城市及直辖市 4.您的月生活费○≦1,000元 ○1,001-2,000元 ○2,001-3,000元 ○≧3,001元 5.您进行过绿色低碳的相关生活方式吗? 6.您觉得“低碳”,与你的生活关系密切吗? 7.低碳生活是否会成为未来的主流生活方式? 8.您是否认为低碳生活会提高您的生活质量?
所以第一空方括号内就填入对应的特征
最终填入selected_features = ['1.您的性别○男性 ○女性','2.您的年级○大一 ○大二 ○大三 ○大四','3.您的生源地○农村 ○城镇(乡镇) ○地县级城市 ○省会城市及直辖市','4.您的月生活费○≦1,000元 ○1,001-2,000元 ○2,001-3,000元 ○≧3,001元','5.您进行过绿色低碳的相关生活方式吗?','6.您觉得“低碳”,与你的生活关系密切吗?','7.低碳生活是否会成为未来的主流生活方式?','8.您是否认为低碳生活会提高您的生活质量?']
第二空就是将selected_features数据赋值给X
所以第二空填入data[selected_features](注意不需要加双引号,因为他是我们已经定义好的变量而不是里面的数据)
6. 创建目标变量
题目:y = __________
这里同上一空的X一样是给y进行赋值,我们从题目中找到,将“低碳行为积 极性”设为目标变量并标注。所以y中的值应该是低碳行为积极性,而特征中只要5是和这个相关的
所以最终填入y = data['5.您进行过绿色低碳的相关生活方式吗?'](注意这里需要双引号是因为5是对应的数据列,所以需要)
7.数据划分(测试集取20%)
题目:from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = __________(__________, random_state=42)
数据划分使用的为sklearn.model_selection,而题目中将其import为train_test_split,
所以第一空填入train_test_split
需要划分的数据为X,y
所以第二空填入X,y(因为这个是我们定义好的变量所以不需要双引号)
所以最终为:X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
8.合并处理后得数据,并将其保存(保存中不用额外创建索引)
题目:cleaned_data = __________(__________, axis=1)
__________('2.1.2_cleaned_data.csv', __________)
合并处理数据需要使用pandas里面的函数concat去做合并处理
所以第一空我们需要填入pd.concat
合并的数据为X,y,但是concat的语法要求X,y需要使用【】框定起来
所以最终填入:cleaned_data = pd.concat([X, y], axis=1)
第二空保存数据到csv文件中
所以我们使用to_csv
最终填入:cleaned_data.to_csv('2.1.2_cleaned_data.csv', index=Flase)
主观题
制定数据清洗规范(2分)
根据题目内容填入

1.加载数据集,显示前5行数据
2.检查并删除数据缺失值与重复值
3.标准化处理数据
4.保存处理好的数据
制定特征工程规范(3分)
1.标注特征特征值与目标值
2.划分数据,将数据集划分为训练集与测试集
题干只给了2点,可以写一些通用的,凑3分(以下基本上都是通用的,可以照搬)
1 标注数据来源,具体可以标注数据的提供者,数据集文件名和文件大小,以及数据提供的日期。
2 标注数据描述信息,具体可以标注每个字段的含义,单位和数据范围。
3 保存处理后的数据,标注存储位置和文件名。
4 用文档来记录标准流程和要点。
