当前位置：首页 > wzjs >正文

佛山响应式网站中国域名网官网

wzjs 2025/7/21 4:16:22

佛山响应式网站,中国域名网官网,渝水区城乡建设局网站,泰安建设银行网站数据的预处理是数据分析，或者机器学习训练前的重要步骤。通过数据预处理，可以提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性整合不同数据，数据的来源和结构可能多种多样&#xff…

数据的预处理是数据分析，或者机器学习训练前的重要步骤。
通过数据预处理，可以

提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性
整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集
提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加高效

本篇介绍的正则化处理，主要功能是对每个样本计算其范数，然后对该样本中每个元素除以该范数，
这样处理的结果是使得每个处理后样本的范数（如l1-norm、l2-norm）等于1。

1. 原理

介绍正则化之前，先简单介绍下范数的概念。

1.1. 范数

范数常被用来度量某个向量空间（或矩阵）中的每个向量的长度或大小，
可以简单理解为向量的长度，或者向量到零点的距离，或者相应的两个点之间的距离。

对于向量（x=[x1,x2,...,xm]x=[x1,x2,...,xm]），常见的范数有：

L1范数，向量元素绝对值之和，x 到零点的曼哈顿距离（∥x∥1=∑mi=1∣xi∣∥x∥1=∑i=1m∣xi∣）
L2范数，向量元素绝对值的平方和再开方，表示x到零点的欧式距离（∥x∥2=√∑mi=1∣x2i∣∥x∥2=∑i=1m∣xi2∣）
p-范数，向量元素绝对值的p次方和的1/p次幂，表示x到零点的p阶闵氏距离（∥x∥p=(∑mi=1∣xi∣p)1p∥x∥p=(∑i=1m∣xi∣p)1p）
无穷范数，所有向量元素绝对值中的最大值（∥x∥∞=maxi∣xi∣∥x∥∞=maxi∣xi∣）
等等。

numpy中已经提供了计算向量范数的函数。

import numpy as np# 范数计算arr = np.random.randint(0, 100, 10)
print("向量: {}".format(arr))L1 = np.linalg.norm(arr, 1)
print("L1范数: {}".format(L1))
L2 = np.linalg.norm(arr, 2)
print("L2范数: {}".format(L2))LInf = np.linalg.norm(arr, np.inf)
print("无穷范数: {}".format(LInf))# 运行结果
向量: [12 22 30 75 20 28 38 72  2 33]
L1范数: 332.0
L2范数: 126.72016414130783
无穷范数: 75.0

1.2. 正则化

有了范数的概念之后，再来看正则化，根据选用的范数不同，正则化也分为L1正则化，L2正则化等等。
范数在正则化过程中扮演了重要的角色，被用来限制优化参数的大小，帮助防止模型过拟合。

from sklearn import preprocessing as ppdata = np.random.randint(1, 100, size=(3, 3))
L1 = pp.normalize(data, norm="l1")
L2 = pp.normalize(data, norm="l2")
LMax = pp.normalize(data, norm="max")print("L1正则化: {}".format(L1))
print("L2正则化: {}".format(L2))
print("Max正则化: {}".format(LMax))# 运行结果
L1正则化: 
[[0.29677419 0.09677419 0.60645161][0.20408163 0.46938776 0.32653061][0.05       0.67       0.28      ]]L2正则化:
[[0.43510613 0.14188244 0.88912993][0.33614632 0.77313654 0.53783412][0.06869324 0.92048947 0.38468217]]Max正则化:
[[0.4893617  0.15957447 1.        ][0.43478261 1.         0.69565217][0.07462687 1.         0.41791045]]

正则化之后，所有的数值都被压缩到了 0~1之间。
后续介绍机器学习算法时，可以看到正则化如何缓解训练结果过拟合的问题。