当前位置：首页 > news >正文

深度学习篇---深度学习中的范数

news 2025/7/1 10:40:52

文章目录

前言
一、向量范数
- 1.L0范数
- - 1.1定义
  - 1.2计算式
  - 1.3特点
  - 1.4应用场景
  - - 1.4.1特征选择
    - 1.4.2压缩感知
- 2.L1范数（曼哈顿范数）
- - 2.1定义
  - 2.2计算式
  - 2.3特点
  - 2.4应用场景
  - - 2.4.1L1正则化
    - 2.4.2鲁棒回归
- 3.L2范数（欧几里得范数）
- - 3.1定义
  - 3.2特点
  - 3.3应用场景
- 4.L∞范数（最大范数）
- - 4.1定义
  - 4.2计算式
  - 4.3特点
  - 4.4应用场景
- 5.Lp范数（广义范数）
- - 5.1定义
  - 5.2计算式
  - 5.3特点
二、矩阵范数
- 1. Frobenius范数（矩阵L2范数）
- - 1.1定义
  - 1.2特点
  - 1.3应用场景
- 2. 核范数（迹范数）
- - 2.1定义
  - 2.2计算式
  - 2.3特点
  - 2.4应用场景
- 3. 谱范数（最大奇异值范数）
- - 3.1定义
  - 3.2计算式
  - 3.3特点
  - 3.4应用场景
三、范数在深度学习中的核心应用
- 1. 正则化（防止过拟合）
- - 1.1L1正则化
  - 1.2L2正则化
- 2. 损失函数设计
- - 2.1L1损失
  - 2.2L2损失
- 3. 权重约束与优化
- - 3.1梯度裁剪
  - 3.2谱归一化
- 4. 模型压缩与稀疏化
- - 4.1L1正则化
  - 4.2结构化范数
- 5. 对抗防御
- - 5.1L∞范数
四、不同范数的对比与选择
五、总结
- L1/L2范数
- 矩阵范数
范数选择原则

前言

本文介绍了一系列范数的定义、计算、使用。比如L1\L2\L∞\Frobenius范数（矩阵L2范数），用于正则化（防止过拟合）、损失函数。

一、向量范数

1.L0范数

1.1定义

向量中非零元素的数量

1.2计算式

L0范数的定义

1.3特点

非凸且计算困难（NP难问题）。
用于稀疏性约束，但实际常用L1范数替代。

1.4应用场景

1.4.1特征选择

特征选择（稀疏特征提取）。

1.4.2压缩感知

压缩感知（信号稀疏表示）。

2.L1范数（曼哈顿范数）

2.1定义

定义：向量元素绝对值之和。

2.2计算式

L1范数

2.3特点

凸函数，可优化性强。
诱导稀疏性：优化过程中倾向于将部分参数置零。
几何解释：菱形等高线，在坐标轴处有“尖角”（稀疏性来源）。

2.4应用场景

2.4.1L1正则化

L1正则化（Lasso）：用于线性回归、神经网络权重稀疏化。

2.4.2鲁棒回归

鲁棒回归（如最小绝对偏差）。

3.L2范数（欧几里得范数）

3.1定义

定义：向量元素平方和的平方根。

L2范数

3.2特点

严格凸，优化稳定。
抑制大参数值，防止过拟合。
几何解释：圆形等高线，各方向平滑下降。

3.3应用场景

L2正则化（岭回归、权重衰减）：防止模型过拟合。
损失函数（如均方误差损失）。

4.L∞范数（最大范数）

4.1定义

定义：向量元素绝对值的最大值。

4.2计算式

L∞范数

4.3特点

关注最大幅值的元素。
在对抗样本生成中用于约束扰动大小。

4.4应用场景

对抗训练（限制扰动的最大幅度）。
梯度裁剪（防止梯度爆炸）。

5.Lp范数（广义范数）

5.1定义

定义：向量元素绝对值的p次方和的1/p次幂。

5.2计算式

Lp范数

5.3特点

p=1时为L1范数，p=2时为L2范数，p→∞时趋近L∞范数。
不同p值对应不同的稀疏性和平滑性权衡。

二、矩阵范数

1. Frobenius范数（矩阵L2范数）

1.1定义

定义：矩阵元素平方和的平方根。
矩阵的L2范数

1.2特点

将矩阵视为向量后计算L2范数。
衡量矩阵的“总能量”。

1.3应用场景

权重矩阵的正则化（如全连接层参数约束）。
矩阵分解（如PCA、SVD）。

2. 核范数（迹范数）

2.1定义

定义：矩阵奇异值之和。

2.2计算式

核范数

2.3特点

反映矩阵的低秩性质。
用于低秩矩阵恢复。

2.4应用场景

推荐系统（矩阵补全，如Netflix问题）。
鲁棒PCA（分离低秩矩阵与稀疏噪声）。

3. 谱范数（最大奇异值范数）

3.1定义

定义：矩阵的最大奇异值。

3.2计算式

谱范数

3.3特点

衡量矩阵对向量的最大拉伸程度。
与Lipschitz连续性相关。

3.4应用场景

生成对抗网络（GAN）：约束判别器的Lipschitz常数。
谱归一化（稳定训练过程）。

三、范数在深度学习中的核心应用

1. 正则化（防止过拟合）

1.1L1正则化

L1正则化：通过稀疏化权重减少模型复杂度（如Lasso回归）。

1.2L2正则化

L2正则化：通过限制权重幅度防止过拟合（如岭回归、神经网络权重衰减）。

2. 损失函数设计

2.1L1损失

L1损失（MAE）：对异常值鲁棒，用于回归任务。

2.2L2损失

L2损失（MSE）：对异常值敏感，但优化更稳定。

3. 权重约束与优化

3.1梯度裁剪

梯度裁剪：使用L2或L∞范数限制梯度大小，防止梯度爆炸。

3.2谱归一化

谱归一化：通过谱范数约束网络层的Lipschitz常数（如WGAN）。

4. 模型压缩与稀疏化

4.1L1正则化

L1正则化：生成稀疏权重矩阵，便于模型压缩（如剪枝）。

4.2结构化范数

结构化范数（如Group Lasso）：约束特定参数组的稀疏性。

5. 对抗防御

5.1L∞范数

L∞约束：限制对抗扰动的大小（如对抗训练中的PGD攻击）。

四、不同范数的对比与选择

范数类型稀疏性计算复杂度典型应用
L0 最强 NP难理论分析，实际中少用
L1 强低 特征选择、稀疏模型
L2 无低 防止过拟合、稳定优化
L∞ 无低对抗训练、梯度裁剪
Frobenius 无中 矩阵正则化、分解
核范数低秩性高 推荐系统、低秩恢复

五、总结

L1/L2范数

L1/L2范数：基础正则化工具，分别诱导稀疏性和平滑性。

矩阵范数

矩阵范数：处理高维数据、低秩建模及稳定训练。

范数选择原则

根据任务需求（稀疏性、低秩性、鲁棒性）。
考虑计算效率和优化难度。
结合模型结构（如卷积层常用Frobenius范数，全连接层用L2）。

理解不同范数的特性及其几何意义，能够帮助设计更高效的模型架构、正则化策略和优化方法，从而提升深度学习模型的性能和泛化能力。

查看全文

http://www.dtcms.com/a/82884.html

软考中级网络工程师第八章网络安全

【react】工程项目中的通过自定义Hook进行路由设计以及路由鉴权

Python Django入门(创建应用程序)

Mysql表的简单操作

深度解析学术论文成果评估(Artifact Evaluation)：从历史到现状

【React】基于自定义Hook提取公共逻辑

MySQL：float，decimal（1）

Python学习第二十一天

风暴潮、潮汐潮流模拟：ROMS模型如何精准预测海洋现象？

云盘搭建笔记

《Python实战进阶》No42: 多线程与多进程编程详解（下）

四种事件类型

自适应柔顺性策略：扩散引导控制中学习近似的柔顺

Python中的null是什么？

【C++进阶】深入探索类型转换

（electron 报错）TypeError: Cannot read property ‘upgrade‘ of undefined

Linux驱动开发-①中断②阻塞、非阻塞IO和异步通知

VLAN：逻辑隔离冲突网络的详细讲解

Android第四次面试（Java基础篇）

Unity动画片段丢失(AnimationClip)，如何进行重新绑定

OpenCV旋转估计（5）图像拼接的一个函数waveCorrect()

【云上CPU玩转AIGC】——腾讯云高性能应用服务HAI已支持DeepSeek-R1模型预装环境和CPU算力

基于Spring Boot的本科生交流培养管理平台的设计与实现（LW+源码+讲解）

c++ XML库用法

【机器学习-模型评估】

【人工智能】如何理解transformer中的token?

以高斯（GaussDB）为例，在cmd 命令行连接数据，操作数据库，关闭数据库的详细步骤

Jenkins 容器化部署 uniapp H5 项目

完整的类在JVM中的生命周期详解

腾讯云HAI1元体验：轻松调用DeepSeek-R1模型搭建网站

文章目录

前言

一、向量范数

1.L0范数

1.1定义

1.2计算式

1.3特点

1.4应用场景

1.4.1特征选择

1.4.2压缩感知

2.L1范数（曼哈顿范数）

2.1定义

2.2计算式

2.3特点

2.4应用场景

2.4.1L1正则化

2.4.2鲁棒回归

3.L2范数（欧几里得范数）

3.1定义

3.2特点

3.3应用场景

4.L∞范数（最大范数）

4.1定义

4.2计算式

4.3特点

4.4应用场景

5.Lp范数（广义范数）

5.1定义

5.2计算式

5.3特点

二、矩阵范数

1. Frobenius范数（矩阵L2范数）

1.1定义

1.2特点

1.3应用场景

2. 核范数（迹范数）

2.1定义

2.2计算式

2.3特点

2.4应用场景

3. 谱范数（最大奇异值范数）

3.1定义

3.2计算式

3.3特点

3.4应用场景

三、范数在深度学习中的核心应用

1. 正则化（防止过拟合）

1.1L1正则化

1.2L2正则化

2. 损失函数设计

2.1L1损失

2.2L2损失

3. 权重约束与优化

3.1梯度裁剪

3.2谱归一化

4. 模型压缩与稀疏化

4.1L1正则化

4.2结构化范数

5. 对抗防御

5.1L∞范数

四、不同范数的对比与选择

五、总结

L1/L2范数

矩阵范数

范数选择原则

相关文章：