当前位置: 首页 > news >正文

大模型技术30讲-4-彩票假设

彩票假设

  • 定义
  • 训练流程
  • 参考文献

定义

彩票假设是一个关于神经网络训练的概念,它认为在一个随机初始化的神经网络中,存在着这样一个子网络(也称为“中奖彩票”):如果单独训练,在训练步骤相同的情况下,能在测试集上达到与一个完整的网络一样高的正确率。

训练流程

在这里插入图片描述

  1. 使用较小的随机权重值初始化神经网络
  2. 训练直至收敛(训练损失最小化,分类正确率最大化)
  3. 对神经网络的权重参数进行剪枝,将它们从网络中移除。有两种方式:非结构化剪枝(对单个权重剪枝,置为0)和结构化剪枝(对网络中较大的块剪枝,比如整个卷积滤波器通道权重置为0)
  4. 将权重重置为第一步中的原始小随机值,并对剪枝后的网络进行训练(直接复用第一步中的权重)
  5. 重复第2步到第4步的剪枝步骤,直到网络达到我们期望的大小。

在彩票假设的原始论文中,作者成功将网络缩减到其原始大小的10%,并且分类正确率没有降低。此外,剪枝后的稀疏网络,比原始密集网络展现出了更好地泛化性。

参考文献

[1] Jonathan Frankle and Michael Carbin, The lottery ticket hypothesis: Finding sparse, trainable neural networks (2019), in International Conference on Learning Representations.
[2] 塞巴斯蒂安·拉施卡, 大模型技术30讲, 人民邮电出版社(北京), 2025, P15-P17.

相关文章:

  • 第六讲——一元函数微分学的应用之中值定理、微分等式与微分不等式
  • 面壁智能MiniCPM4.0技术架构与应用场景
  • OAuth 2.0中/oauth/authorize接口的核心作用解析
  • 大模型的类别对比:LLM、Text Embedding、Rerank、Speech to text,TTS
  • 14.计算机网络End
  • Docker三大核心组件详解:镜像、容器、仓库的协作关系
  • 想考Kubernetes认证?CKA考试内容与报名全解析
  • 6. TypeScript 函数
  • 读研一些毕业感想
  • FastAPI的数据契约:Pydantic与SQLModel联手打造健壮API
  • Java多线程—线程池
  • AIStor 的模型上下文协议 (MCP) 服务器:管理功能
  • Pandas:你的数据分析瑞士军刀![特殊字符]✨
  • Unity UGUI GraphicRaycaster.Raycast详解
  • Appium + Node.js 测试全流程
  • 去中心化交易所(DEX)架构:智能合约驱动与AMM算法创新
  • 金仓数据库主备集群故障自动转移技术解析
  • 新能源知识库(39)261度电储能柜成为当前市场主流原因分析
  • 探究:什么是扁平化组织?有什么益处?
  • Element:Table表头全部或单个表头颜色header-row-style
  • 江西中恒建设集团有限公司网站/seo推广公司排名
  • 视频推广平台有哪些/新网站seo外包
  • 江苏建设主管部门网站/成都网站seo厂家
  • 网站开发过程总结/推56论坛
  • 做的新网站网上搜不到/互联网营销工具
  • 杭州做网站多少钱/百度收录查询代码