当前位置: 首页 > news >正文

云平台网站叫什么泰州公司做网站

云平台网站叫什么,泰州公司做网站,网站建设企业 熊账号,免费响应式网站一、特征预处理简介在机器学习中,特征预处理(Feature Preprocessing)是建模流程特征工程中的至关重要的一步。原始数据往往存在缺失、量纲不一、分布不均、类别不可用等问题,直接用于模型训练会导致性能下降、收敛缓慢甚至模型失效…

 一、特征预处理简介

        在机器学习中,特征预处理(Feature Preprocessing)是建模流程特征工程中的至关重要的一步。原始数据往往存在缺失、量纲不一、分布不均、类别不可用等问题,直接用于模型训练会导致性能下降、收敛缓慢甚至模型失效。因此,必须对特征进行系统性的预处理,以提升模型的稳定性、准确性和训练效率。

                可分为:归一化处理(了解)、标准化处理(重点)

二、标准化 (重点掌握)

📌 定义:

标准化是将特征值转换为均值为 0、标准差为 1 的分布。

📌 公式:

 

  • x:原始值
  • μ:该特征的均值
  • σ:该特征的标准差
  • z:标准化后的值

🧮 示例:

假设某特征“身高”(单位:cm)的均值 μ=170,标准差 σ=10,某个样本身高为 180 cm:

表示该值比平均身高高 1 个标准差。

✅ 优点:

  • 不受数据绝对值大小影响
  • 对异常值相对稳健(相比归一化)
  • 适用于大多数机器学习算法

🔍 适用场景(重点!):

  • 基于距离的模型:如 KNN、K-Means、SVM
  • 基于梯度下降的模型:如线性回归、逻辑回归、神经网络
  • 特征近似服从正态分布时效果更好

⚠️ 注意:标准化不保证数据在固定区间(如 [0,1]),可能仍有负值或超出范围。


二、归一化(了解即可)

⚠️ 注意:在机器学习中,“归一化”通常指 Min-Max Scaling,不是向量单位化。

📌 定义:

将特征值缩放到一个固定的区间,通常是 [0, 1]

📌 公式:

  • x:原始值
  • xmin​、⁡xmax​:该特征的最小值和最大值
  • x′:归一化后的值(在 [0,1] 区间)

🧮 示例:

某特征“分数”范围是 50~95,某个学生得分为 80:

✅ 优点:

  • 所有特征统一到 [0,1] 区间,便于比较
  • 适合有明确边界的数据(如图像像素 0~255)

❌ 缺点:

  • 对异常值敏感:如果出现一个极大或极小的异常值,会导致其他数据被压缩到很小的区间
  • 不适用于数据范围可能变化的场景

📌 适用场景:

  • 神经网络输入层(常配合 Sigmoid 激活函数)
  • 图像处理(像素值归一化)
  • 数据有明确物理边界时

三、标准化 vs 归一化 对比表

对比项标准化(Standardization)归一化(Normalization)
目标分布均值为 0,标准差为 1缩放到 [0, 1] 区间
是否保留原始分布形状是(线性变换)是(线性变换)
是否受异常值影响相对较小(用标准差)很大(依赖最大/最小值)
是否可能有负值✅ 是(通常有负值)❌ 否(缩放到 [0,1])
适用模型KNN、SVM、线性模型、神经网络等神经网络、图像处理、有边界数据
公式依赖均值 μμ、标准差 σσ最小值、最大值


 四、在 Python 中的使用(scikit-learn)

标准化

'''标准化'''
from sklearn.preprocessing import StandardScalertf = StandardScaler()
data = [[90, 2, 10, 40],[60, 4, 15, 45],[75, 3, 13, 46]]
new_data = tf.fit_transform(data)
print(new_data)

归一化

from sklearn.preprocessing import MinMaxScaler# 1.准备特征数据
data = [[90, 2, 10, 40],[60, 4, 15, 45],[75, 3, 13, 46]]
# 2.创建归一化对象
tf = MinMaxScaler()
# 3.具体归一化动作
new_data = tf.fit_transform(data)
# 4.打印归一化结果
print(new_data)

http://www.dtcms.com/a/399166.html

相关文章:

  • 信息系统项目的规划绩效域
  • python+vue的实践性教学系统Java
  • Jupyter 中指定 Python 环境的几种方法
  • 南京网站排名软装设计公司排行
  • 网络营销活动策划南宁seo多少钱报价
  • BGP的内外之道
  • vue 在el-tabs动态添加添加table
  • 角色的视角移动朝向 控制
  • WebStorm 借助 Docker 插件一键部署前端项目到开发环境
  • 静态企业网站模板做律师网站公司
  • 江苏网站建设 博敏网站免费logo在线设计生成
  • 做百度竞价用什么网站黄石网站建设
  • 为中国品质“代言”,牧原比想象中更硬核
  • 查看网站的注册时间画logo的手机软件
  • Claude Code + Playwright MCP(Windows)完整指南
  • 学校网站开发分析报告教学网站建设 效益
  • Spark源码中的ReentrantLock
  • 贪心算法之会议安排问题
  • 凡科小程序价格嘉兴网站的优化
  • 设计模式(C++)详解——职责链模式 (Chain of Responsibility)(2)
  • 群辉nas怎么做网站品牌推广服务
  • 【RabbitMQ】RabbitMQ核心机制
  • 网站开发软件三剑客wordpress分享可见
  • GelSight Modulus 触觉型3D轮廓仪助力航空航天精密检测
  • 北京 旅游攻略 颐和园(第一天下午逛) 长城最后一天早上逛 如果到北京早 也可以第一天长城
  • 网站的做用百度做网站按点击量收费吗
  • 程序的流程方式
  • python做网站验证码常州如何进行网站推广
  • C#语法回忆零散巩固(持续更新最新版)
  • MySQL数据库——11.2事务-隔离