当前位置: 首页 > news >正文

深度学习篇---深度学习中的范数


文章目录

  • 前言
  • 一、向量范数
    • 1.L0范数
      • 1.1定义
      • 1.2计算式
      • 1.3特点
      • 1.4应用场景
        • 1.4.1特征选择
        • 1.4.2压缩感知
    • 2.L1范数(曼哈顿范数)
      • 2.1定义
      • 2.2计算式
      • 2.3特点
      • 2.4应用场景
        • 2.4.1L1正则化
        • 2.4.2鲁棒回归
    • 3.L2范数(欧几里得范数)
      • 3.1定义
      • 3.2特点
      • 3.3应用场景
    • 4.L∞范数(最大范数)
      • 4.1定义
      • 4.2计算式
      • 4.3特点
      • 4.4应用场景
    • 5.Lp范数(广义范数)
      • 5.1定义
      • 5.2计算式
      • 5.3特点
  • 二、矩阵范数
    • 1. Frobenius范数(矩阵L2范数)
      • 1.1定义
      • 1.2特点
      • 1.3应用场景
    • 2. 核范数(迹范数)
      • 2.1定义
      • 2.2计算式
      • 2.3特点
      • 2.4应用场景
    • 3. 谱范数(最大奇异值范数)
      • 3.1定义
      • 3.2计算式
      • 3.3特点
      • 3.4应用场景
  • 三、范数在深度学习中的核心应用
    • 1. 正则化(防止过拟合)
      • 1.1L1正则化
      • 1.2L2正则化
    • 2. 损失函数设计
      • 2.1L1损失
      • 2.2L2损失
    • 3. 权重约束与优化
      • 3.1梯度裁剪
      • 3.2谱归一化
    • 4. 模型压缩与稀疏化
      • 4.1L1正则化
      • 4.2结构化范数
    • 5. 对抗防御
      • 5.1L∞范数
  • 四、不同范数的对比与选择
  • 五、总结
    • L1/L2范数
    • 矩阵范数
  • 范数选择原则


前言

本文介绍了一系列范数的定义、计算、使用。比如L1\L2\L∞\Frobenius范数(矩阵L2范数),用于正则化(防止过拟合)、损失函数。


一、向量范数

1.L0范数

1.1定义

向量中非零元素的数量

1.2计算式

L0范数的定义

1.3特点

  1. 非凸计算困难(NP难问题)。
  2. 用于稀疏性约束,但实际常用L1范数替代

1.4应用场景

1.4.1特征选择

特征选择(稀疏特征提取)。

1.4.2压缩感知

压缩感知(信号稀疏表示)。

2.L1范数(曼哈顿范数)

2.1定义

定义:向量元素绝对值之和

2.2计算式

L1范数

2.3特点

  1. 凸函数,可优化性强
  2. 诱导稀疏性:优化过程中倾向于将部分参数置零
  3. 几何解释:菱形等高线,在坐标轴处有“尖角”(稀疏性来源)。

2.4应用场景

2.4.1L1正则化

L1正则化(Lasso):用于线性回归、神经网络权重稀疏化

2.4.2鲁棒回归

鲁棒回归(如最小绝对偏差)。

3.L2范数(欧几里得范数)

3.1定义

定义:向量元素平方和的平方根。

L2范数

3.2特点

  1. 严格凸,优化稳定。
  2. 抑制大参数值,防止过拟合。
  3. 几何解释:圆形等高线,各方向平滑下降。

3.3应用场景

  1. L2正则化(岭回归、权重衰减):防止模型过拟合。
  2. 损失函数(如均方误差损失)。

4.L∞范数(最大范数)

4.1定义

定义:向量元素绝对值的最大值

4.2计算式

L∞范数

4.3特点

  1. 关注最大幅值的元素。
  2. 对抗样本生成中用于约束扰动大小

4.4应用场景

  1. 对抗训练(限制扰动的最大幅度)。
  2. 梯度裁剪(防止梯度爆炸)。

5.Lp范数(广义范数)

5.1定义

定义:向量元素绝对值的p次方和的1/p次幂。

5.2计算式

Lp范数

5.3特点

p=1时为L1范数,p=2时为L2范数,p→∞时趋近L∞范数
不同p值对应不同的稀疏性和平滑性权衡

二、矩阵范数

1. Frobenius范数(矩阵L2范数)

1.1定义

定义:矩阵元素平方和的平方根。
矩阵的L2范数

1.2特点

  1. 将矩阵视为向量后计算L2范数
  2. 衡量矩阵的“总能量”。

1.3应用场景

  1. 权重矩阵的正则化(如全连接层参数约束)。
  2. 矩阵分解(如PCA、SVD)。

2. 核范数(迹范数)

2.1定义

定义:矩阵奇异值之和。

2.2计算式

核范数

2.3特点

  1. 反映矩阵的低秩性质。
  2. 用于低秩矩阵恢复

2.4应用场景

  1. 推荐系统(矩阵补全,如Netflix问题)。
  2. 鲁棒PCA(分离低秩矩阵与稀疏噪声)。

3. 谱范数(最大奇异值范数)

3.1定义

定义:矩阵的最大奇异值

3.2计算式

谱范数

3.3特点

  1. 衡量矩阵对向量的最大拉伸程度
  2. Lipschitz连续性相关。

3.4应用场景

  1. 生成对抗网络(GAN):约束判别器的Lipschitz常数。
  2. 谱归一化(稳定训练过程)。

三、范数在深度学习中的核心应用

1. 正则化(防止过拟合)

1.1L1正则化

L1正则化:通过稀疏化权重减少模型复杂度(如Lasso回归)。

1.2L2正则化

L2正则化:通过限制权重幅度防止过拟合(如岭回归、神经网络权重衰减)。

2. 损失函数设计

2.1L1损失

L1损失(MAE):对异常值鲁棒,用于回归任务

2.2L2损失

L2损失(MSE):对异常值敏感,但优化更稳定

3. 权重约束与优化

3.1梯度裁剪

梯度裁剪:使用L2或L∞范数限制梯度大小,防止梯度爆炸。

3.2谱归一化

谱归一化:通过谱范数约束网络层的Lipschitz常数(如WGAN)。

4. 模型压缩与稀疏化

4.1L1正则化

L1正则化:生成稀疏权重矩阵,便于模型压缩(如剪枝)。

4.2结构化范数

结构化范数(如Group Lasso):约束特定参数组的稀疏性。

5. 对抗防御

5.1L∞范数

L∞约束:限制对抗扰动的大小(如对抗训练中的PGD攻击)。

四、不同范数的对比与选择

范数类型 稀疏性 计算复杂度 典型应用
L0 最强 NP难 理论分析,实际中少用
L1 强 低 特征选择、稀疏模型
L2 无 低 防止过拟合、稳定优化
L∞ 无 低 对抗训练、梯度裁剪
Frobenius 无 中 矩阵正则化、分解
核范数 低秩性 高 推荐系统、低秩恢复

五、总结

L1/L2范数

L1/L2范数:基础正则化工具,分别诱导稀疏性和平滑性。

矩阵范数

矩阵范数:处理高维数据、低秩建模及稳定训练。

范数选择原则

  1. 根据任务需求(稀疏性、低秩性、鲁棒性)。
  2. 考虑计算效率和优化难度
  3. 结合模型结构(如卷积层常用Frobenius范数,全连接层用L2)。

理解不同范数的特性及其几何意义,能够帮助设计更高效的模型架构、正则化策略和优化方法,从而提升深度学习模型的性能和泛化能力。


相关文章:

  • 软考中级网络工程师第八章网络安全
  • 【react】工程项目中的通过自定义Hook进行路由设计以及路由鉴权
  • Python Django入门(创建应用程序)
  • Mysql表的简单操作
  • 深度解析学术论文成果评估(Artifact Evaluation):从历史到现状
  • 【React】基于自定义Hook提取公共逻辑
  • MySQL:float,decimal(1)
  • Python学习第二十一天
  • 风暴潮、潮汐潮流模拟:ROMS模型如何精准预测海洋现象?
  • 云盘搭建笔记
  • 《Python实战进阶》No42: 多线程与多进程编程详解(下)
  • 四种事件类型
  • 自适应柔顺性策略:扩散引导控制中学习近似的柔顺
  • Python中的null是什么?
  • 【C++进阶】深入探索类型转换
  • (electron 报错)TypeError: Cannot read property ‘upgrade‘ of undefined
  • Linux驱动开发-①中断②阻塞、非阻塞IO和异步通知
  • VLAN:逻辑隔离冲突网络的详细讲解
  • Android第四次面试(Java基础篇)
  • Unity动画片段丢失(AnimationClip),如何进行重新绑定
  • 国务院关税税则委:调整对原产于美国的进口商品加征关税措施
  • 福建厦门市副市长、市公安局局长陈育煌出任吉林省公安厅厅长
  • 优化营商环境,服务上海“五个中心”建设,北外滩有何举措?
  • 93岁南开退休教授陈生玺逝世,代表作《明清易代史独见》多次再版
  • 印度外交秘书:印巴军方将于12日再次对话
  • 印度军方否认S-400防空系统被摧毁