人工智能训练师——2.1.1题解
1.加载数据集并显示数据集的前五行
和1.1的题型一致
1)加载数据集想到pd.read_csv('文件名')
最后填入pd.read_csv('auto-mpg.csv')
2)打印前5行
想到head()函数
最后填入print (data.head())
2.检查缺失值并删除缺失值所在的行
检查缺失值
需要联想到isnull()函数,这个函数会标记数据中缺失值
然后需要对缺失值有多少个进行计数,想到.sum函数,能对缺失值进行计数
所以第一空填写data.isnull().sum()
删除缺失值
删除缺失值需要想到drop函数,
这里把全部的缺失值都删了就好,不需要单独去删某一行,所以直接使用dropna函数
所以最后填入data.dropna()即可
3.将 'horsepower' 列转换为数值类型,并(删除)处理转换中的异常值
转换成数值类型
pd.to_numeric 是 Pandas 的“强制转数字”函数
所以第一空填写pd.to_numeric
第二空删除处理转换中的异常值
因为只删除horsepower列里面的空值,所以需要用到subset
所以最后填入data.dropna(subset=['horsepower'])
4.对数值型数据进行标准化处理
fit_transform 即为一次性进行标准化处理
fit:把numerical_features各列的均值 μ
标准差 σ
算出来存到scaler里。
transform:对每条记录做z = (x – μ) / σ返回一个 NumPy 二维数组(形状跟原来一样)。
处理的对象为data[numerical_features]
所以最后填入scaler.fit_transform(data[numerical_features])
5.选择特征、自变量和目标变量
回归原题
根据业务需求和数据特性,选择对燃油效率预测最有用的特征:选择以下特征:'cylinders'、'displacement'、'horsepower'、'weight'、'acceleration'、'model year'、'origin'
所以第一空直接填写 ['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin'](无需动脑,搬过来就行)
第二空就直接写data[selected_features]
将“mpg”设为目标变量并标注;
所以第三空填入data['mpg']
6.划分数据集为训练集和测试集(训练集占8成)
注意上面有from sklearn.model_selection import train_test_split
所以这空填入
train_test_split(X, y, random_state=42)
7.保存清洗和处理后的数据(不存储额外的索引号)
这空就是之前1.1里面常见的保存文件
所以填入cleaned_data.to_csv
常会跟一句index = False
