当前位置：首页 > news >正文

机器学习数据预处理回归预测中标准化和归一化

news 2025/10/19 22:50:24

在机器学习的回归预测任务中，** 标准化（Standardization）和归一化（Normalization）** 是数据预处理的重要步骤，用于消除不同特征量纲和取值范围的影响，提升模型训练效率和预测性能。

一、标准化（Z-Score 标准化）

1.定义和公式：
通过将特征值转换为符合 ** 标准正态分布（均值为 0，标准差为 1）** 的数值，消除量纲差异。
在这里插入图片描述
2.优缺点：
（1）优点：
保留数据分布特征，适用于需要利用数据分布信息的模型。可通过计算均值和标准差在线性时间内完成，效率高。
（2）缺点：
受异常值影响较大，若数据中存在离群点，可能导致均值和标准差偏移。
3.使用场景
（1）基于距离或梯度的算法：如线性回归、逻辑回归、支持向量机（SVM）、神经网络、K 近邻（KNN）等。这些算法对特征尺度敏感，标准化可确保梯度下降优化过程更快收敛。
（2）存在异常值的数据集：标准差对异常值敏感，但若数据中存在极端值，标准化可能受其影响（需结合数据清洗）。

二、归一化（Min-Max 归一化）

将特征值缩放到指定范围（通常为0,1或−1,1），仅改变特征的取值区间，不改变数据分布形态。
在这里插入图片描述

2.优缺点
（1）优点：
简单直观，可保持数据的原始分布形态（如均匀分布）。结果具有明确的物理意义（如百分比），便于业务解读。
（2）缺点：
若数据中存在异常值，Xmin或 Xmax可能偏离正常范围，导致归一化后的数据失真。

3.适用场景
（1）数据分布未知或均匀分布的场景：如文本特征（TF-IDF）、图像像素值（通常归一化到0,1）。
（2）要求特征取值范围固定的模型：如涉及概率输出的模型（如 Softmax 回归），或需要可视化特征相对大小的场景。
（3）无异常值的数据集：归一化对极值敏感，若存在异常值，可能导致非极值样本被压缩到很小的区间内。