当前位置：首页 > wzjs >正文

什么网站可以做特价活动上海今日头条新闻

wzjs 2025/7/31 1:31:08

什么网站可以做特价活动,上海今日头条新闻,台州seo快速排名,可以绑定域名的免费空间复习日仔细回顾一下之前21天的内容，没跟上进度的同学补一下进度。作业： 自行学习参考如何使用kaggle平台，写下使用注意点，并对下述比赛提交代码一、数据预处理 import pandas as pd import numpy as np import matplo…

复习日

仔细回顾一下之前21天的内容，没跟上进度的同学补一下进度。

作业：

自行学习参考如何使用kaggle平台，写下使用注意点，并对下述比赛提交代码

一、数据预处理

import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import seaborn as sns  
import warnings
from sklearn.model_selection import train_test_split
warnings.filterwarnings("ignore")
plt.rcParams['font.sans-serif'] = ['SimHei']  
plt.rcParams['axes.unicode_minus'] = False  
data = pd.read_csv('./day22/train.csv')
print(data.info())
print(data.isnull().sum())
for i in data.columns:if data[i].isnull().sum() > 0:if pd.api.types.is_numeric_dtype(data[i]):median_val = data[i].median()data[i].fillna(median_val, inplace=True)print(f"用中位数 {median_val} 填补列：{i}")else:zhongshu = data[i].mode()[0]data[i].fillna(zhongshu, inplace=True)print(f"用众数{zhongshu} 填补列：{i}")data = data.drop(columns=['Name','Ticket', 'Cabin'])
print(data.info())
print(data.isnull().sum())data = pd.get_dummies(data, columns=['Embarked'])
data2 = pd.read_csv('./day22/train.csv') 
list_final = []  
for i in data.columns:if i not in data2.columns:list_final.append(i)  
for i in list_final:data[i] = data[i].astype(int)  sex_mapping = {'male': 1,'female': 0,
}
data['Sex'] = data['Sex'].map(sex_mapping)
print(data.info())
print(data.isnull().sum())

二、利用随机森林模型进行训练和验证

from sklearn.model_selection import train_test_splitX = data.drop(['Survived'], axis=1)  
y = data['Survived']  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape) # (1382, 6) (346, 6) (1382,) (346,)import numpy as np 
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import StratifiedKFold, cross_validate 
from sklearn.metrics import make_scorer, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
import time
import warnings
warnings.filterwarnings("ignore")
warnings.filterwarnings("ignore") 
print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")
import time 
start_time = time.time() 
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train) 
rf_pred = rf_model.predict(X_test) 
end_time = time.time()print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\n默认随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred))
print("默认随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred))from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state=42)
X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)print("SMOTE过采样后训练集的形状：", X_train_smote.shape, y_train_smote.shape)print("--- 2. 带权重随机森林 + 交叉验证 (在训练集上进行) ---")counts = np.bincount(y_train)
minority_label = np.argmin(counts) 
majority_label = np.argmax(counts)
print(f"训练集中各类别数量: {counts}")
print(f"少数类标签: {minority_label}, 多数类标签: {majority_label}")rf_model_weighted = RandomForestClassifier(random_state=42,class_weight='balanced'  # class_weight={minority_label: 10, majority_label: 1} cv_strategy = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) 
scoring = {'accuracy': 'accuracy','precision_minority': make_scorer(precision_score, average='macro', zero_division=0),'recall_minority': make_scorer(recall_score, average='macro'),'f1_minority': make_scorer(f1_score, average='macro')
}
print(f"开始进行 {cv_strategy.get_n_splits()} 折交叉验证...")
start_time_cv = time.time()cv_results = cross_validate(estimator=rf_model_weighted,X=X_train_smote,y=y_train_smote,cv=cv_strategy,scoring=scoring,n_jobs=-1, return_train_score=False 
)end_time_cv = time.time()
print(f"交叉验证耗时: {end_time_cv - start_time_cv:.4f} 秒")print("\n带权重随机森林 交叉验证平均性能 (基于训练集划分)：")
for metric_name, scores in cv_results.items():if metric_name.startswith('test_'): clean_metric_name = metric_name.split('test_')[1]print(f"  平均 {clean_metric_name}: {np.mean(scores):.4f} (+/- {np.std(scores):.4f})")print("-" * 50)print("--- 3. 训练最终的带权重模型 (整个训练集) 并在测试集上评估 ---")
start_time_final = time.time()
rf_model_weighted_final = RandomForestClassifier(random_state=42,class_weight='balanced'
)
rf_model_weighted_final.fit(X_train_smote, y_train_smote) 
rf_pred_weighted = rf_model_weighted_final.predict(X_test) 
end_time_final = time.time()print(f"最终带权重模型训练与预测耗时: {end_time_final - start_time_final:.4f} 秒")
print("\n带权重随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred_weighted)) 
print("带权重随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred_weighted))
print("-" * 50)print("性能对比 (测试集上的少数类召回率 Recall):")
recall_default = recall_score(y_test, rf_pred, average='macro')
recall_weighted = recall_score(y_test, rf_pred_weighted, average='macro')
print(f"  默认模型: {recall_default:.4f}")
print(f"  带权重模型: {recall_weighted:.4f}")

三、导入测试集并对数据测试

test_data = pd.read_csv('./day22/test.csv')
for i in test_data.columns:if test_data[i].isnull().sum() > 0:if pd.api.types.is_numeric_dtype(test_data[i]):median_val = test_data[i].median()test_data[i].fillna(median_val, inplace=True)print(f"用中位数 {median_val} 填补列：{i}")else:zhongshu = test_data[i].mode()[0]test_data[i].fillna(zhongshu, inplace=True)print(f"用众数{zhongshu} 填补列：{i}")test_data = test_data.drop(columns=['Name','Ticket', 'Cabin'])test_data = pd.get_dummies(test_data, columns=['Embarked'])
data2 = pd.read_csv('./day22/test.csv') 
list_final = []  
for i in test_data.columns:if i not in data2.columns:list_final.append(i)  
for i in list_final:test_data[i] = test_data[i].astype(int)  sex_mapping = {'male': 1,'female': 0,
}
test_data['Sex'] = test_data['Sex'].map(sex_mapping)
print(test_data.info())
print(test_data.isnull().sum())rf_pred_weighted = rf_model_weighted_final.predict(test_data) output = pd.DataFrame({'PassengerId': test_data['PassengerId'],'Survived': rf_pred_weighted
})output.to_csv('titanic_predictions.csv', index=False)

查看全文

http://www.dtcms.com/wzjs/158507.html