当前位置：首页 > news >正文

论文略读： CUT YOUR LOSSES IN LARGE-VOCABULARY LANGUAGE MODELS

news 2025/9/25 11:20:55

ICLR 2025 oral

随着语言模型（LLMs）的规模不断增长，其词表规模也随之扩大
- 这导致训练过程中内存占用极度向一个层次倾斜：即交叉熵损失计算中的最后一层
- 在计算交叉熵损失时，需要构造一个logit 矩阵，其每个条目对应输入 token 与词表中每个词项之间的得分
- 对于小模型而言，这一操作所占内存甚至比整个 LLM 的其余部分还高出一个数量级
——>论文提出了 Cut Cross-Entropy（CCE），一种在不将完整 logits 写入全局内存的情况下计算交叉熵损失的方法
- 仅计算目标 token 的 logit，并通过“按需计算”的方式完成 log-sum-exp 操作
- 实现了一个自定义 kernel，在闪存（flash memory）中完成矩阵乘法和 log-sum-exp 的归约操作，从而使得交叉熵计算的全局内存占用几乎可以忽略不计。
以 Gemma 2（20 亿参数）模型为例，CCE 将损失计算的内存占用从 24 GB 降至 1 MB，将整个分类头（classifier head）在训练时的内存消耗从 28 GB 降至 1 GB。

http://www.dtcms.com/a/241927.html

相关文章：

如何通过DNS解析实现负载均衡？有哪些优势？

期权卖方是谁？

Linux动态库与静态库详解：从入门到精通

mysql-innoDB存储引擎事务的原理

智能合约安全专题（一）：什么是重入攻击？——从 DAO 事件谈起

Ribbon负载均衡实战指南：7种策略选择与生产避坑

《Qt C++ 与 OpenCV：解锁视频播放程序设计的奥秘》

广告系统中后链路数据为什么要使用流批一体技术？流批一体技术是什么？

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

Redis高可用与扩展性：构建稳定高效的缓存系统

Qt Widget类解析与代码注释

图像直方图分析：全面掌握OpenCV与Matplotlib绘制技巧

python整数处理 2022年信息素养大赛复赛/决赛真题小学组/初中组 python编程挑战赛真题详细解析

未来已来：深度解读 BLE 6.0 的革命性特性与实战应用

随笔小记：SpringBoot 3 集成 SpringDoc OpenAPI

计算机毕业设计微信小程序题库系统在线答题题目分类错题本管理学习记录查询系统源码+论文+PPT+讲解基于微信小程序的题库系统设计与实现

雨季智慧交通：从车辆盲区到客流统计的算法全覆盖

基于KubeSphere平台快速搭建单节点向量数据库Milvus

Telephony 网络数据数据统计

【Mini-F5265-OB开发板试用测评】2、移植MultiButton测试按键

linux arm系统烧录

Nuxt + Pinia + Element Plus 后台管理系统搭建教程（含源码）

idea64.exe.vmoptions配置

SecureCRT 中使用 `crt.Session.Config.SetOption` 方法

自己学习原理

第八章独立看门狗（IWDG）

状态管理详解：Context API、Redux、Recoil 和 Zustand 在 React Native 中的应用

Kotlin基础语法一

Visual Studio2022配置OpenCV环境

【解决办法】git clone报错unable to access ‘xxx‘: SSL certificate problem