当前位置: 首页 > news >正文

建设校园网站公司wordpress 一站多主题

建设校园网站公司,wordpress 一站多主题,防疫管控优化措施,学软件开发哪所学校好‘标准化’、‘归一化’ 属于 ‘数据转换(Data Transformation)’目标:把数据变成适合算法处理的形态。标准化与归一化详解1. 引言在机器学习、数据分析和深度学习中,特征的取值范围往往差异巨大。直接使用原始数据可能导致某些特…

‘标准化’、‘归一化’ 属于 ‘数据转换(Data Transformation)’

目标:把数据变成适合算法处理的形态。


标准化与归一化详解

1. 引言

在机器学习、数据分析和深度学习中,特征的取值范围往往差异巨大。直接使用原始数据可能导致某些特征在计算距离、梯度下降等过程中对结果产生不成比例的影响。

假设我们要用机器学习预测房价,数据集中有两个特征:

房屋面积(㎡)房龄(年)
1208
8015
2003

  • 面积的数值范围大约是 80 ~ 200

  • 房龄的数值范围大约是 3 ~ 15

如果直接把这两个特征送进一些模型,如:

  • 基于距离的算法(KNN、K-means)中,面积差 120㎡ vs 80㎡ 的差异(40)远比房龄差 8 年 vs 15 年 的差异(7)大得多,距离计算时几乎全被“面积”主导,房龄的影响被弱化。

  • 梯度下降优化中,面积的梯度变化会很大,而房龄的梯度变化很小,导致模型在训练中更关注面积特征,忽略房龄特征。

直观理解

  • 归一化:把所有特征的值压缩到固定范围(比如 0~1),比例关系保留,但绝对大小不重要。

  • 标准化:让特征围绕 0 分布,并按标准差进行缩放,适合服从正态分布的特征。

比如

  • 面积可能变成 0.2 ~ 0.9

  • 房龄可能变成 0.1 ~ 0.8
    这样,两个特征在模型计算中的“话语权”更均衡,模型能更全面地考虑不同特征的作用。

为了避免这种问题,我们需要对数据进行 特征缩放(Feature Scaling),其中最常见的两种方法就是标准化归一化


2. 标准化(Standardization)

2.1 定义

标准化是将数据的分布调整为均值为 0、标准差为 1的分布,使其符合标准正态分布 N(0,1)

2.2 公式

对于特征 x:

  • μ:特征的均值

  • σ:特征的标准差

2.3 特点

  • 数据范围不固定(可能是 -3 到 3,也可能更大)。

  • 适合假设数据服从正态分布的算法,例如线性回归、逻辑回归、SVM、KNN、PCA等。

  • 异常值较敏感,因为均值和标准差会被极端值拉动。

2.4 Python 示例

import numpy as np
from sklearn.preprocessing import StandardScaler# 模拟数据
X = np.array([[1, 200], [2, 300], [3, 400]])scaler = StandardScaler()
X_std = scaler.fit_transform(X)print("标准化后:\n", X_std)

3. 归一化(Normalization)

3.1 定义

归一化是将数据按比例压缩到固定范围(通常是 [0,1] 或 [-1,1]),保持特征之间的比例关系。

3.2 公式(Min-Max Normalization)

  • xmin:特征的最小值

  • xmax⁡:特征的最大值

3.3 特点

  • 数据范围固定,通常在 [0,1]。

  • 适合对距离敏感的算法(如 KNN、K-means、神经网络),因为它能防止大数值特征主导距离计算。

  • 异常值非常敏感,如果数据中有极端值,压缩后的大多数数据可能聚集在很小的区间。

3.4 Python 示例

import numpy as np
from sklearn.preprocessing import MinMaxScalerX = np.array([[1, 200], [2, 300], [3, 400]])scaler = MinMaxScaler(feature_range=(0, 1))
X_norm = scaler.fit_transform(X)print("归一化后:\n", X_norm)

4. 标准化 vs 归一化 对比

对比维度标准化(Standardization)归一化(Normalization)
公式
范围不固定固定([0,1]或[-1,1])
对异常值敏感度
适用算法假设数据正态分布的算法(线性回归、SVM、PCA等)基于距离或梯度的算法(KNN、K-means、神经网络等)
结果分布均值为0、标准差为1保持比例但缩放到固定范围

6. 总结与建议

  • 如果算法假设数据服从正态分布 → 用标准化

  • 如果算法基于距离计算或需要固定范围 → 用归一化

  • 如果数据中有极端值,要先处理异常值再缩放,否则缩放结果会失真。

小贴士:在实际项目中,可以先用 StandardScalerMinMaxScaler 试验,再通过验证集评估效果,选择最合适的方式。

http://www.dtcms.com/a/468624.html

相关文章:

  • 私做网站名电子章呼伦贝尔网站建设 设计
  • 网站建设季度考核评价工作总结怎么做网站海外运营推广
  • 临淄网站设计深圳外贸soho网站建设
  • 百度关键词模拟点击软件重庆网站排名优化
  • 在那个网站找模具做网站运营专员做什么
  • 先做网站后备案吗网站怎么免费建站
  • 企业seo推广没内容的网站怎么优化
  • 网站空间怎么备份seo内部优化
  • 广州外贸营销型网站建设怎么做一个购物平台网站
  • 电子商务网站建设实训内容设计网站推荐 zoo
  • c 网站开发 简单例子镇江微信推广平台
  • 网页编成网站沙坪坝网站建设公司选哪家好
  • 部分网站dns解析失败wordpress 后台制作
  • 小程序做视频网站wordpress中文下载方法
  • 西塞山区建设局网站重点专业建设网站 建设方案
  • 情侣博客网站模板下载合肥房产网58同城
  • 微网站开发语言专门做教育的视频网站
  • 塑胶 东莞网站建设网站要怎么做
  • 免费发广告的网站大全qq官方网站
  • 企业网站管理系统设置91人才网赣州招聘网
  • 用人名做网站域名crm系统网址
  • 开不锈钢公司怎么做网站健康陕西app管理端最新版
  • 广东中国移动网站wordpress 封ip段
  • 十大金融公司排名廊坊网站快速排名优化
  • 网站建设方案书 阿里云网站页面优化签象客
  • 江苏百城建设有限公司官方网站上海做网站建设的公司排名
  • 邢台做网站建设公司哪家好?wordpress可爱的主题
  • 网上有做logo的网站吗为什么没人做物流网站
  • 北京网站建设哪里好网站开发的解决方案
  • 网站设计培训班老师西安景观设计公司排行