2.1.2
#读取一个Excel文件,并将读取到的数据存储在变量data中
data = pd.__________('大学生低碳生活行为的影响因素数据集.xlsx')
---
data = pd.read_excel('大学生低碳生活行为的影响因素数据集.xlsx')
注意:下载excel表格,安装库pip install openpyxl -i https://pypi.tuna.tsinghua.edu.cn/simple
#处理数据集中的缺失值
initial_row_count = data.__________[0]
data = data.__________()
final_row_count = data.shape[0]
---
initial_row_count = data.shape[0]
data = data.dropna()
代码解释:根据下面一行“final_row_count = data.shape[0]”填写空白位置。
#处理重复行
duplicate_count = data.duplicated().sum()
data = data.__________()
---
duplicate_count = data.duplicated().sum()
data = data.drop_duplicates()
代码解释:duplicates重复,drop删除。drop_duplicates,删除重复行
data[numerical_features] = scaler.__________(data[numerical_features])
----
data[numerical_features] = scaler.fit_transform(data[numerical_features])
代码解释:
selected_features = [
'1.您的性别○男性 ○女性', '2.您的年级○大一 ○大二 ○大三 ○大四', '3.您的生源地○农村 ○城镇(乡镇) ○地县级城市 ○省会城市及直辖市', '4.您的月生活费○≦1,000元 ○1,001-2,000元 ○2,001-3,000元 ○≧3,001元',
'5.您进行过绿色低碳的相关生活方式吗?', '6.您觉得“低碳”,与你的生活关系密切吗?',
'7.低碳生活是否会成为未来的主流生活方式?', '8.您是否认为低碳生活会提高您的生活质量?'
]
X = data[__________]
# 创建目标变量
y = __________['__________']
---
X = data[selected_features]
# 创建目标变量
y = data['低碳行为积极性']
代码解释:
(5)根据业务需求和数据特性,选择对低碳生活行为预测最有用的特征,将“低碳行为积极性”设为目标变量并标注。选择以下特征
# 数据划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 保存处理后的数据
cleaned_data = pd.concat([X, y], axis=1)
cleaned_data.__________('2.1.2_cleaned_data.csv', index=False)
---
leaned_data.to_csv('2.1.2_cleaned_data.csv', index=False)