当前位置: 首页 > news >正文

机器学习数据预处理回归预测中标准化和归一化

  在机器学习的回归预测任务中,** 标准化(Standardization)和归一化(Normalization)** 是数据预处理的重要步骤,用于消除不同特征量纲和取值范围的影响,提升模型训练效率和预测性能。

一、标准化(Z-Score 标准化)

1.定义和公式:
  通过将特征值转换为符合 ** 标准正态分布(均值为 0,标准差为 1)** 的数值,消除量纲差异。
在这里插入图片描述
2.优缺点:
(1)优点
  保留数据分布特征,适用于需要利用数据分布信息的模型。可通过计算均值和标准差在线性时间内完成,效率高。
(2)缺点
  受异常值影响较大,若数据中存在离群点,可能导致均值和标准差偏移。
3.使用场景
(1)基于距离或梯度的算法:如线性回归、逻辑回归、支持向量机(SVM)、神经网络、K 近邻(KNN)等。这些算法对特征尺度敏感,标准化可确保梯度下降优化过程更快收敛。
(2)存在异常值的数据集:标准差对异常值敏感,但若数据中存在极端值,标准化可能受其影响(需结合数据清洗)。

二、归一化(Min-Max 归一化)

  将特征值缩放到指定范围(通常为0,1或−1,1),仅改变特征的取值区间,不改变数据分布形态。
在这里插入图片描述

2.优缺点
(1)优点
简单直观,可保持数据的原始分布形态(如均匀分布)。结果具有明确的物理意义(如百分比),便于业务解读。
(2)缺点
若数据中存在异常值,Xmin或 Xmax可能偏离正常范围,导致归一化后的数据失真。

3.适用场景
(1)数据分布未知或均匀分布的场景:如文本特征(TF-IDF)、图像像素值(通常归一化到0,1)。
(2)要求特征取值范围固定的模型:如涉及概率输出的模型(如 Softmax 回归),或需要可视化特征相对大小的场景。
(3)无异常值的数据集:归一化对极值敏感,若存在异常值,可能导致非极值样本被压缩到很小的区间内。

三、如何选择标准化或归一化

1.优先选择标准化的情况:
  数据存在异常值或分布未知。使用基于梯度下降或距离计算的算法(如 SVM、神经网络)。需要保留数据分布的统计特性(如均值、方差)。

2.优先选择归一化的情况:
  数据分布均匀,无显著异常值。业务需求要求特征值在特定区间(如概率、百分比)。使用不需要考虑数据分布的模型(如决策树、随机森林,这类模型对特征尺度不敏感)。

相关文章:

  • C语言单链表应用详解
  • 【程序员AI入门:模型】19.开源模型工程化全攻略:从选型部署到高效集成,LangChain与One-API双剑合璧
  • 【目标检测】RT-DETR
  • PT2031K单触控单输出触摸IC
  • 【数据结构】线性表--栈
  • 网络攻防模拟:城市安全 “数字预演”
  • 记录一个为打印高清而做投喂图像增强的例子
  • leetcode2749. 得到整数零需要执行的最少操作数-medium
  • 第二十六天打卡
  • python版本管理工具-pyenv轻松切换多个Python版本
  • 求职困境:开发、AI、运维、自动化
  • Java Set系列集合详解:HashSet、LinkedHashSet、TreeSet底层原理与使用场景
  • YOLO+UI(C#)开发
  • 基于MATLAB-GUI图形界面的数字图像处理
  • 服务培训QDA 的安装调试方法,硬件模块的讲解和软件控制台使用及系统测试
  • R1 快开门式压力容器操作证备考练习题及答案
  • java输入输出类
  • 如何排查阻塞语句
  • 【Linux】iptables 命令详解
  • dify知识库支持图文回复实践
  • 辽宁援疆前指总指挥王敬华已任新疆塔城地委副书记
  • 当智慧农场遇见绿色工厂:百事如何用科技留住春天的味道?
  • 著名心血管病学专家李国庆教授逝世,享年63岁
  • 中国首艘海洋级智能科考船“同济”号试航成功,可搭载水下遥控机器人
  • 四个“从未如此”使巴以加沙战火绵延时间创下历史之最
  • 由我国牵头制定,适老化数字经济国际标准发布