当前位置: 首页 > news >正文

论文略读: CUT YOUR LOSSES IN LARGE-VOCABULARY LANGUAGE MODELS

ICLR 2025 oral

  • 随着语言模型(LLMs)的规模不断增长,其词表规模也随之扩大
    • 这导致训练过程中内存占用极度向一个层次倾斜:即交叉熵损失计算中的最后一层
    • 在计算交叉熵损失时,需要构造一个logit 矩阵,其每个条目对应输入 token 与词表中每个词项之间的得分
    • 对于小模型而言,这一操作所占内存甚至比整个 LLM 的其余部分还高出一个数量级
  • ——>论文提出了 Cut Cross-Entropy(CCE),一种在不将完整 logits 写入全局内存的情况下计算交叉熵损失的方法
    • 仅计算目标 token 的 logit,并通过“按需计算”的方式完成 log-sum-exp 操作
    • 实现了一个自定义 kernel,在闪存(flash memory)中完成矩阵乘法和 log-sum-exp 的归约操作,从而使得交叉熵计算的全局内存占用几乎可以忽略不计
  • Gemma 2(20 亿参数)模型为例,CCE 将损失计算的内存占用从 24 GB 降至 1 MB,将整个分类头(classifier head)在训练时的内存消耗从 28 GB 降至 1 GB

相关文章:

  • 如何通过DNS解析实现负载均衡?有哪些优势?
  • 期权卖方是谁?
  • Linux动态库与静态库详解:从入门到精通
  • mysql-innoDB存储引擎事务的原理
  • 智能合约安全专题(一):什么是重入攻击?——从 DAO 事件谈起
  • Ribbon负载均衡实战指南:7种策略选择与生产避坑
  • 《Qt C++ 与 OpenCV:解锁视频播放程序设计的奥秘》
  • 广告系统中后链路数据为什么要使用流批一体技术?流批一体技术是什么?
  • [特殊字符] 智能合约中的数据是如何在区块链中保持一致的?
  • Redis高可用与扩展性:构建稳定高效的缓存系统
  • Qt Widget类解析与代码注释
  • 图像直方图分析:全面掌握OpenCV与Matplotlib绘制技巧
  • python整数处理 2022年信息素养大赛复赛/决赛真题 小学组/初中组 python编程挑战赛 真题详细解析
  • ​​​​​​​未来已来:深度解读 BLE 6.0 的革命性特性与实战应用
  • 随笔小记:SpringBoot 3 集成 SpringDoc OpenAPI
  • 计算机毕业设计微信小程序题库系统 在线答题 题目分类 错题本管理 学习记录查询系统源码+论文+PPT+讲解 基于微信小程序的题库系统设计与实现
  • 雨季智慧交通:从车辆盲区到客流统计的算法全覆盖
  • 基于KubeSphere平台快速搭建单节点向量数据库Milvus
  • Telephony 网络数据数据统计
  • 【Mini-F5265-OB开发板试用测评】2、移植MultiButton测试按键
  • 做网站如何语音对话/seo综合查询怎么用的
  • 商业活动的网站建设/外贸平台app
  • 免费自学编程/网站怎么优化seo
  • 燕郊医院网站建设/原创代写文章平台
  • 湖南网站建设seo优化/bing搜索引擎国际版
  • 政府网站建设评语/佛山seo技术