机器学习数据预处理回归预测中标准化和归一化
在机器学习的回归预测任务中,** 标准化(Standardization)和归一化(Normalization)** 是数据预处理的重要步骤,用于消除不同特征量纲和取值范围的影响,提升模型训练效率和预测性能。
一、标准化(Z-Score 标准化)
1.定义和公式:
通过将特征值转换为符合 ** 标准正态分布(均值为 0,标准差为 1)** 的数值,消除量纲差异。
2.优缺点:
(1)优点:
保留数据分布特征,适用于需要利用数据分布信息的模型。可通过计算均值和标准差在线性时间内完成,效率高。
(2)缺点:
受异常值影响较大,若数据中存在离群点,可能导致均值和标准差偏移。
3.使用场景
(1)基于距离或梯度的算法:如线性回归、逻辑回归、支持向量机(SVM)、神经网络、K 近邻(KNN)等。这些算法对特征尺度敏感,标准化可确保梯度下降优化过程更快收敛。
(2)存在异常值的数据集:标准差对异常值敏感,但若数据中存在极端值,标准化可能受其影响(需结合数据清洗)。
二、归一化(Min-Max 归一化)
将特征值缩放到指定范围(通常为0,1或−1,1),仅改变特征的取值区间,不改变数据分布形态。
2.优缺点
(1)优点:
简单直观,可保持数据的原始分布形态(如均匀分布)。结果具有明确的物理意义(如百分比),便于业务解读。
(2)缺点:
若数据中存在异常值,Xmin或 Xmax可能偏离正常范围,导致归一化后的数据失真。
3.适用场景
(1)数据分布未知或均匀分布的场景:如文本特征(TF-IDF)、图像像素值(通常归一化到0,1)。
(2)要求特征取值范围固定的模型:如涉及概率输出的模型(如 Softmax 回归),或需要可视化特征相对大小的场景。
(3)无异常值的数据集:归一化对极值敏感,若存在异常值,可能导致非极值样本被压缩到很小的区间内。
三、如何选择标准化或归一化
1.优先选择标准化的情况:
数据存在异常值或分布未知。使用基于梯度下降或距离计算的算法(如 SVM、神经网络)。需要保留数据分布的统计特性(如均值、方差)。
2.优先选择归一化的情况:
数据分布均匀,无显著异常值。业务需求要求特征值在特定区间(如概率、百分比)。使用不需要考虑数据分布的模型(如决策树、随机森林,这类模型对特征尺度不敏感)。