当前位置：首页 > news >正文

正则化方法：L1和L2正则化在神经网络中的应用（代码实现）

news 2025/10/4 11:39:55

在神经网络的训练过程中，正则化是一种非常重要的技术，它能够帮助我们解决过拟合等问题，提升模型的泛化能力。其中，L1和L2正则化是两种最为常用的正则化方法。在这一小节中，我们将详细介绍L1和L2正则化在神经网络中的应用，并通过Python代码来进行实际的操作。

L1和L2正则化核心技术点

L1正则化

L1正则化也被称为Lasso正则化。简单来说，它是在损失函数中添加了模型权重的绝对值之和作为惩罚项。用公式表示就是在原损失函数 $L$ 的基础上加上 $λ∑i∣wi∣\lambda\sum_{i}|w_{i}|$ ，其中 $λ\lambda$ 是正则化系数， $w_{i}$ 是模型的权重。这样做的好处是可以让一些权重变为0，起到特征选择的作用，就好像是从一堆特征中挑选出真正重要的特征。

例如，在一个图像识别的神经网络中，可能有很多特征，但有些特征对识别结果的影响非常小，L1正则化就可以把这些不重要特征对应的权重变为0，从而简化模型。

L2正则化

L2正则化也叫Ridge正则化。它是在损失函数中添加了模型权重的平方和作为惩罚项，即原损失函数 $L$ 加上 $λ∑iwi2\lambda\sum_{i}w_{i}^{2}$ 。L2正则化会让权重的值变小，但不会让它们变为0。它就像是给模型的权重加上了一个“紧箍咒”，让权重不会变得过大，从而避免模型过于复杂。

比如在一个预测房价的神经网络中，如果不使用正则化，模型可能会为了拟合训练数据而让某些权重变得非常大，导致模型在新数据上表现很差。而L2正则化可以限制这些权重，让模型更加稳定。

在神经网络中应用L1和L2正则化的实操模块

下面我们通过Python代码来展示如何在神经网络中应用L1和L2正则化。我们将使用Keras库来构建一个简单的神经网络模型，并在MNIST手写数字识别数据集上进行实验。

import numpy as np
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.regularizers import l1, l2# 加载MNIST数据集
(x_train, y_train), (x_test, y_test) = mnist.load_data()# 数据预处理
x_train = x_train.reshape(60000, 784).astype('float32') / 255
x_test = x_test.reshape(10000, 784).astype('float32') / 255# 构建神经网络模型
model_l1 = Sequential()
model_l1.add(Dense(512, activation='relu', input_shape=(784,), kernel_regularizer=l1(0.001)))
model_l1.add(Dense(10, activation='softmax'))model_l2 = Sequential()
model_l2.add(Dense(512, activation='relu', input_shape=(784,), kernel_regularizer=l2(0.001)))
model_l2.add(Dense(10, activation='softmax'))# 编译模型
model_l1.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model_l2.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])# 训练模型
history_l1 = model_l1.fit(x_train, y_train, epochs=5, batch_size=128, validation_data=(x_test, y_test))
history_l2 = model_l2.fit(x_train, y_train, epochs=5, batch_size=128, validation_data=(x_test, y_test))# 评估模型
_, accuracy_l1 = model_l1.evaluate(x_test, y_test)
_, accuracy_l2 = model_l2.evaluate(x_test, y_test)print(f"L1正则化模型的准确率: {accuracy_l1}")
print(f"L2正则化模型的准确率: {accuracy_l2}")

在上述代码中，我们首先加载了MNIST数据集，并对数据进行了预处理。然后分别构建了使用L1和L2正则化的神经网络模型。在模型编译时，我们使用了交叉熵损失函数和Adam优化器。最后，我们训练并评估了这两个模型，打印出了它们的准确率。

解决正则化参数选择不当导致的模型性能下降问题

在使用L1和L2正则化时，正则化系数 $λ\lambda$ 的选择非常重要。如果 $λ\lambda$ 选择不当，可能会导致模型性能下降。一般来说，我们可以通过网格搜索等方法来选择合适的 $λ\lambda$ 值。

例如，我们可以定义一个 $λ\lambda$ 值的列表，然后分别使用不同的 $λ\lambda$ 值来训练模型，比较它们的性能，选择性能最好的 $λ\lambda$ 值。

from sklearn.model_selection import GridSearchCV
from tensorflow.keras.wrappers.scikit_learn import KerasClassifierdef create_model(lambda_value=0.001, reg_type='l2'):model = Sequential()if reg_type == 'l1':model.add(Dense(512, activation='relu', input_shape=(784,), kernel_regularizer=l1(lambda_value)))else:model.add(Dense(512, activation='relu', input_shape=(784,), kernel_regularizer=l2(lambda_value)))model.add(Dense(10, activation='softmax'))model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])return modelmodel = KerasClassifier(build_fn=create_model)
param_grid = {'lambda_value': [0.0001, 0.001, 0.01], 'reg_type': ['l1', 'l2']}
grid = GridSearchCV(estimator=model, param_grid=param_grid, cv=3)
grid_result = grid.fit(x_train, y_train)print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))