当前位置: 首页 > news >正文

大模型技术30讲-4-彩票假设

彩票假设

  • 定义
  • 训练流程
  • 参考文献

定义

彩票假设是一个关于神经网络训练的概念,它认为在一个随机初始化的神经网络中,存在着这样一个子网络(也称为“中奖彩票”):如果单独训练,在训练步骤相同的情况下,能在测试集上达到与一个完整的网络一样高的正确率。

训练流程

在这里插入图片描述

  1. 使用较小的随机权重值初始化神经网络
  2. 训练直至收敛(训练损失最小化,分类正确率最大化)
  3. 对神经网络的权重参数进行剪枝,将它们从网络中移除。有两种方式:非结构化剪枝(对单个权重剪枝,置为0)和结构化剪枝(对网络中较大的块剪枝,比如整个卷积滤波器通道权重置为0)
  4. 将权重重置为第一步中的原始小随机值,并对剪枝后的网络进行训练(直接复用第一步中的权重)
  5. 重复第2步到第4步的剪枝步骤,直到网络达到我们期望的大小。

在彩票假设的原始论文中,作者成功将网络缩减到其原始大小的10%,并且分类正确率没有降低。此外,剪枝后的稀疏网络,比原始密集网络展现出了更好地泛化性。

参考文献

[1] Jonathan Frankle and Michael Carbin, The lottery ticket hypothesis: Finding sparse, trainable neural networks (2019), in International Conference on Learning Representations.
[2] 塞巴斯蒂安·拉施卡, 大模型技术30讲, 人民邮电出版社(北京), 2025, P15-P17.

http://www.dtcms.com/a/244538.html

相关文章:

  • 第六讲——一元函数微分学的应用之中值定理、微分等式与微分不等式
  • 面壁智能MiniCPM4.0技术架构与应用场景
  • OAuth 2.0中/oauth/authorize接口的核心作用解析
  • 大模型的类别对比:LLM、Text Embedding、Rerank、Speech to text,TTS
  • 14.计算机网络End
  • Docker三大核心组件详解:镜像、容器、仓库的协作关系
  • 想考Kubernetes认证?CKA考试内容与报名全解析
  • 6. TypeScript 函数
  • 读研一些毕业感想
  • FastAPI的数据契约:Pydantic与SQLModel联手打造健壮API
  • Java多线程—线程池
  • AIStor 的模型上下文协议 (MCP) 服务器:管理功能
  • Pandas:你的数据分析瑞士军刀![特殊字符]✨
  • Unity UGUI GraphicRaycaster.Raycast详解
  • Appium + Node.js 测试全流程
  • 去中心化交易所(DEX)架构:智能合约驱动与AMM算法创新
  • 金仓数据库主备集群故障自动转移技术解析
  • 新能源知识库(39)261度电储能柜成为当前市场主流原因分析
  • 探究:什么是扁平化组织?有什么益处?
  • Element:Table表头全部或单个表头颜色header-row-style
  • ABB 500BIM01 1MRB150024R0002
  • 鹰盾视频加密器播放器Win32系统播放器兼容开发的技术要点与实践指南
  • STM32H723的SPI配置及简单使用!
  • AI 视频创作技术全解析:从环境搭建到实战落地​
  • 一起学习swin-transformer(一)
  • JAVASE:方法
  • 前端基础知识ES6系列 - 01(var、let、const之间的区别)
  • AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月11日第105弹
  • 【行云流水AI笔记】游戏里面的强化学习使用场景
  • deepbayes: VI回顾和GMM近似推断