当前位置：首页 > wzjs >正文

红酒专业网站建设免费建站系统哪个好用吗

wzjs 2025/8/26 14:29:43

红酒专业网站建设,免费建站系统哪个好用吗,企业网站留言板,长春建筑工程网数据分析实操集合： 1、关于房间传感器监测数据集的探索 2、EEMD-LSTM模型择时策略 — 1.EEMD分解与LSTM模型搭建 3、EEMD-LSTM模型择时策略 — 2. 量化回测 4、国际超市电商销售数据分析 5、基于问卷调查数据的多元统计数据分析与预测（因子分析、对应分…

数据分析实操集合：

1、关于房间传感器监测数据集的探索
2、EEMD-LSTM模型择时策略 — 1.EEMD分解与LSTM模型搭建
3、EEMD-LSTM模型择时策略 — 2. 量化回测
4、国际超市电商销售数据分析
5、基于问卷调查数据的多元统计数据分析与预测（因子分析、对应分析与逻辑回归）
6、手写文本识别
7、语音情感识别
8、电商会员门店消费数据分析
9、糖尿病风险预测模型分析与构建
10、基于卷积神经网络（CNN）和ResNet50的水果与蔬菜图像分类系统
11、学生抑郁情况可视化分析及预测
12、人脸表情识别（GUI实时识别）
13、基于LSTM的机场天气分析及模型预测

运动能量消耗数据分析

Background:数据集包含了来自不同用户的多项体征数据，包括性别、年龄、身高、体重等基本信息，以及运动持续时间、心率和体温等与身体活动相关的数据。

通过分析这些数据，探索用户在进行身体活动时的热量消耗情况，即目标变量Calories，从而为个性化健身计划或健康管理提供数据支持。
数据分析
基础统计分析
影响因素分析
构建预测模型

总结：通过数据分析可视化，清晰直观发现 持续时间越长，燃烧的卡路里就越高。、 心率跳动与燃烧的卡路里呈正相关。、 持续时间增加会导致心率和体温增加。

Importing Libraries 导入库

import numpy as np
import pandas as pdimport matplotlib.pyplot as plt
import seaborn as snsfrom scipy.stats import shapiro, kstest, mannwhitneyu, ttest_ind, levenefrom sklearn.preprocessing import LabelEncoderfrom sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error

数据准备

data = pd.read_csv("/home/mw/input/02141492/calories.csv")
data.sample(5)

在这里插入图片描述

data.describe()

在这里插入图片描述

data.select_dtypes('object').describe()

Data Preprocessing 数据预处理

data.shape
data.isnull().sum()

在这里插入图片描述

data.columns = data.columns.str.lower()

# 删除无关特征（如 User_Id）
# data = data.drop(columns=["User_Id"])del data['user_id']

data.plot.box(subplots=True, figsize=(10,5))
plt.tight_layout()

在这里插入图片描述
身高、体重、心率和体温存在异常值。
Data Distribution 数据分布

import seaborn as sns
print(sns.__version__)
!pip install -U seaborn
import seaborn as sns
print(sns.__version__)

ps:由于histplot 函数是在 seaborn 0.11.0 版本中引入的； seaborn 需更新到 0.11.0 以上。

fig, axes = plt.subplots(4,2, figsize=(10,10))for i, column in enumerate(data.columns):row = i // 2col = i % 2if column in data.select_dtypes(np.number).columns:sns.histplot(data[column], ax=axes[row, col])else:count_values = data[column].value_counts()sns.barplot(x=count_values.index, y=count_values.values, ax=axes[row,col])axes[row, col].set_title(f'Distribution of {column}')axes[row, col].set_ylabel('frequency')plt.tight_layout()

在这里插入图片描述

Correlations Analysis 相关性分析

sns.heatmap(data[data.select_dtypes(np.number).columns].corr(), annot=True)

在这里插入图片描述
1.持续时间越长，燃烧的卡路里就越高。
2.心率越快，燃烧的卡路里就越高。
3.年龄和燃烧的卡路里具有较弱的相关性。
4.持续时间增加会导致心率和体温增加。

gender_calories = data.groupby('gender')['calories'].mean()sns.barplot(x=gender_calories.index, y=gender_calories.values, palette='viridis')
plt.ylabel('average calories')
plt.title('Average Calories per Gender')

在这里插入图片描述
据观察，男性组的平均卡路里燃烧量略高于女性组。

kstest_res = []
kruskal_test = []fig, axes = plt.subplots(1,2, figsize=(10,5))for i, gender in enumerate(data['gender'].unique()):to_test = data [ data['gender'] == gender]['calories']stats, pvalue =  kstest(to_test, 'norm')if pvalue > 0.05:assumption = 'normal'else:assumption = 'not normal'kstest_res.append([gender, pvalue, assumption])kruskal_test.append(to_test)sns.histplot(to_test, ax=axes[i], palette='viridis')axes[i].set_title(f'Distribution for {gender} calories')axes[i].set_ylabel('frequency')kstest_df = pd.DataFrame(kstest_res, columns=['gender','pvalue','assumption'])
kstest_df

在这里插入图片描述
如图男性和女性卡路里的分布不呈正态。

stats, pvalue = mannwhitneyu(*kruskal_test, alternative='greater') if pvalue <= 0.05:assumption = 'reject H0'
else:assumption = 'accept H0'print('Kruskal pvalue:',pvalue,'\nAssumption:',assumption)

在这里插入图片描述
p值表明，男性燃烧的卡路里并不明显高于女性。

Feature Engineering 特征工程

encoder = LabelEncoder()model_data = data.copy()
model_data['gender'] = encoder.fit_transform(model_data['gender'])model_data.sample(5)

Predictive Modelling 预测建模

训练和测试

x = model_data[['gender', 'age', 'height', 'weight', 'duration', 'heart_rate','body_temp']]
y = model_data['calories']x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.7, random_state=42)

sns.scatterplot(x=x_train['heart_rate'], y=y_train, color=sns.color_palette('viridis')[4])sns.scatterplot(x=x_test['heart_rate'], y=y_test, color=sns.color_palette('viridis')[2])

在这里插入图片描述

Random Forest Regressor 随机森林回归

rf_model = RandomForestRegressor(n_estimators=1000, max_depth=15, max_features=3, oob_score=True, random_state=42)rf_model.fit(x_train, y_train)
rf_predicted = rf_model.predict(x_test)
rf_score = rf_model.score(x_test, y_test)
rf_mae = mean_absolute_error(y_test, rf_predicted)
rf_oob = rf_model.oob_score_rf_df = pd.DataFrame({'model':['Random Forest'], 'r2_score':[rf_score], 'rf_mae':[rf_mae], 'oob_score':[rf_oob]})

sns.scatterplot(x=x_test['heart_rate'], y=y_test, color=sns.color_palette('viridis')[4])
sns.lineplot(x=x_test['heart_rate'], y=rf_predicted, color=sns.color_palette('viridis')[2])

在这里插入图片描述
Key Indicators 关键指标

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as pltrf_fi = pd.DataFrame({'feature':x.columns, 'importances':rf_model.feature_importances_})# 对 DataFrame 按照 'importances' 排序
rf_fi_sorted = rf_fi.sort_values(by='importances', ascending=False)# 使用 seaborn 绘制条形图
sns.barplot(data=rf_fi_sorted, x='importances', y='feature', palette='viridis')# 显示图表
plt.show()

在这里插入图片描述
持续时间对预测燃烧的卡路里影响最大。
Model Performance 模型性能

rf_df

在这里插入图片描述

# 检查缺失值
print(data.isnull().sum())# 如果有缺失值，可以选择填充或删除
data = data.dropna()  # 删除缺失值# 分离特征和目标变量
X = data.drop(columns=["calories"])
y = data["calories"]

在这里插入图片描述

# 标准化特征
from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
X_scaled = scaler.fit_transform(x)

构建 XGBoost 模型

用 XGBoost 构建预测模型，并通过交叉验证评估模型性能

from xgboost import XGBRegressor
from sklearn.model_selection import train_test_split, cross_val_score# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)# 初始化 XGBoost 模型
model = XGBRegressor(n_estimators=100,  # 树的数量learning_rate=0.1,  # 学习率max_depth=4,  # 树的最大深度random_state=42
)# 训练模型
model.fit(X_train, y_train)# 交叉验证评估
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring="neg_mean_squared_error")
print("Cross-Validation RMSE:", np.sqrt(-cv_scores).mean())

在这里插入图片描述

模型评估
评估模型在测试集上的性能，并绘制预测结果与实际值的对比图。

# 预测测试集
y_pred = model.predict(X_test)# 计算评估指标
from sklearn.metrics import mean_squared_error, r2_scoremse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)print("MSE:", mse)
print("R²:", r2)# 绘制预测结果与实际值的对比图
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], color="red", linestyle="--")
plt.xlabel("Actual Calories")
plt.ylabel("Predicted Calories")
plt.title("Actual vs Predicted Calories")
plt.show()

在这里插入图片描述

特征重要性分析

分析特征对模型预测的贡献程度，帮助理解哪些因素对热量消耗的影响最大

# 获取特征重要性
feature_importances = model.feature_importances_
feature_names = x.columns# 绘制特征重要性条形图
sns.barplot(x=feature_importances, y=feature_names, palette="viridis")
plt.xlabel("Importance")
plt.ylabel("Features")
plt.title("Feature Importances")
plt.show()

在这里插入图片描述
持续时间对预测燃烧的卡路里影响最大。

# 若需要完整数据集以及代码请点击以下链接
https://mbd.pub/o/bread/mbd-aJWUlJ9u

查看全文

http://www.dtcms.com/wzjs/495008.html

asp网站开发环境指数基金

哪个网站专门做快餐车哪家公司建设网站好

佛山外贸网站建设电销精准客户资源

怎么对网站的数据库做管理类似火脉的推广平台

htm网站制作电子商务营销方法

做系统那个网站好百度竞价账户

外国人做的篆字网站合肥百度seo代理

做问卷用哪个网站好关键词异地排名查询

同主机网站查询西安百度公司官网

南京越城建设集团网站好看的网站ui

铁岭网站建设淮北seo

网站建设字体颜色代码厦门人才网唯一官网登录

网页制作模板的网站环境保护软广告经典例子

vc 做网站源码站长工具海角

.net网站开发流程百度平台推广的营销收费模式

国内crm系统哪家好百度seo关键词优化工具

wordpress图片主题中文版深圳网站优化软件

口碑好的番禺网站建设石家庄网站关键词推广

用网站素材做logo搜盘网

外贸网站一站式服务网络推广是什么工作内容

建设游戏网站需要什么设备无锡营销型网站制作

做网站的需要续费维护费吗2020 惠州seo服务

做设计哪个网站图比较实用怎么制作公司网站

男做直播网站好小红书推广平台

网站建设所属行业哪家公司网站做得好

小何自助建站魔贝课凡seo课程好吗

wordpress翻页代码seo网站推广如何做

wordpress模版做网站全媒体运营师报考官网在哪里

淄博网站制作设计高质量外链代发

一般的美工可以做网站吗网络推广的网站有哪些

数据分析实操集合：

运动能量消耗数据分析

Background:数据集包含了来自不同用户的多项体征数据，包括性别、年龄、身高、体重等基本信息，以及运动持续时间、心率和体温等与身体活动相关的数据。

Importing Libraries 导入库

Data Preprocessing 数据预处理

Correlations Analysis 相关性分析

Feature Engineering 特征工程

Predictive Modelling 预测建模

Random Forest Regressor 随机森林回归

构建 XGBoost 模型

特征重要性分析

相关文章：