当前位置：首页 > news >正文

[论文阅读]Text Compression for Efficient Language Generation

news 2025/7/11 9:03:45

Text Compression for Efficient Language Generation

[2503.11426] Text Compression for Efficient Language Generation

NAACL 2025

提出了“Generative Pretrained Thoughtformer”（GPTHF），这是一个分层 transformer 语言模型，它能够通过将文本压缩成句子嵌入并采用句子注意力机制来进行文本生成（将句子压缩成一个固定大小的嵌入并采用句子级注意力来生成文本，对GPT的修改很小）。 GPTHF 保留了 GPT 的架构，仅通过动态稀疏注意力掩码修改 token 交互。

这项工作没有压缩固定大小的 token 组，而是将一个句子——语言中具有更高语义价值的单元——压缩成一个嵌入。作者专注于利用这些嵌入来提高计算效率，而不是嵌入本身。

方法

架构

GPTHF 模型由两个主要组件组成：一个词级 Transformer 编码器 (wlt_encoder) 和一个句子级 Transformer 主体 (slt_body)。编码器将每个句子压缩成一个单独的嵌入，同时保留基本信息。 slt_body 对这些句子嵌入进行上下文处理并生成下一个 token 预测。

预训练

使用自动回归模型中常见的下一个 Token 预测目标。为了在启用有效的并行训练的同时，为 Token 预测准备GPTHF，再次采用专门的注意性掩码（图4）。目标是序列中的下一个 Token （图3）

训练语料库包含了 OpenWebText、维基百科和 ArXiv。使用标准的GPT-2 Token ，继承了其词汇大小和未知单词的处理，同时引入了“EOS” Token 。这个 Token 对于快速生成方法的设计至关重要，这是这项工作的基石。

使用 Adam 优化器，权重衰减为 0.01，β1=0.9，β2=0.98 和 ϵ=10−8.

保持梯度裁剪，值为 0.5。

学习率调度器使用线性衰减并进行 10000 步的预热

批次大小调度器，起始批次大小为 64，并线性增加到 4096，在训练持续时间的 60% 时达到峰值。

在训练期间消除了 dropout。

模型在预训练语料库上只进行一次或更少的传递，这降低了过拟合的风险。

快速生成

【感觉上是一句话有对应的emb，常规的生成token并不会影响先前已有句子的emb，因此在更新emb的时候效率得到了提高】

实验

使用验证困惑度和效率指标（FLOPs 和运行时）评估 GPTHF 与大小相当的 GPT 风格基线。

训练数据限制为 100 亿个 token，分为 320’000 个大小为 64 的微批次步骤，上下文大小为 512 个 token。所有模型都在相同的数据集上进行预训练。

基线：训练了一个名为“Baseline-12”的 12 层基线和一个名为“Baseline-24”的 24 层基线，它们与 GPTHF 对应物具有相同的架构和大小。唯一的区别是与图4中的掩码相反，它们使用用于编码器和主体的完整三角掩码进行训练。

困惑度

GPTHF-16-8 和 12 层基线模型的表现相当，为进一步比较奠定了基础：如果 GPTHF-16-8 实现了比 12 层 GPT 更高的生成效率和/或速度，那么训练一个能够压缩的更大模型可能是值得的。

FLOPs

快速生成算法的加速度取决于跨句子的 Token 分布，而不是仅输入的形状。直观地说，更多句子通过缓存已完成的句子来跳过编码器。

效率增益随着提示长度的增加而增加。

平均句子数（x 轴）与效率提升（y 轴）的散点图。效率提升与平均句子数线性相关。对于批处理数据，效率提升较低，这可能是由于 token 的多样性较大（从增加的方差可以看出），导致处理了更多的 padding token，从而减慢了快速生成算法的速度。

推理时间

随着上下文增加，加速比也会增加。

综合来看，核心贡献是以句子为基准进行划分，只修改最后一句话在添加新的生成token后的emb，前面句子的emb不做变化。也对encoder的作用区域进行了精简。

对我来说用处不大，简单了解即可。

http://www.dtcms.com/a/272731.html

相关文章：

Go语言包管理完全指南：从基础到最佳实践

BM12 单链表的排序

东土科技智能塔机系统亮相南京，助力智能建造高质量发展

HOOK专题

web前端面试笔记

北京一家IPO业绩持续性存疑，关联交易频繁独立性堪忧

24、企业设备清单管理（Equipment）详解：从分类到管理，设备全生命周期把控

etf期权到期的风险大不大怎么看？

MySQL中使用GROUP_CONCAT数据丢失问题的原因和处理方案

深入理解区块链 | 去中心化架构与密码学保障

springboot数据脱敏（接口级别）

Uni-app 生命周期与钩子：程序的“生命”旅程

企业电商平台搭建：ZKmall开源商城服务器部署与容灾方案

Spring--04--1--AOP自定义注解，记录用户操作日志

第35周—————糖尿病预测模型优化探索

网络资源模板--基于Android Studio 实现的健身系统App

什么是缺陷？如何描述一个缺陷？

gitlab+TortoiseGit克隆生成ppk方式

二分查找篇——寻找旋转排序数组中的最小值【LeetCode】

数学建模-

leetcode 3439. 重新安排会议得到最多空余时间 I 中等

征程 6M 部署 Omnidet 感知模型

Spark伪分布式集群搭建（Ubuntu系统）

查看uniapp 项目中没有用到依赖

CanOpen转EtherCAT网关与台达伺服的配置指南配置软件篇

Rust Web 全栈开发（三）：使用 Actix 构建简单的 Web Service

【解决方案】基于 Amazon CloudFormation 打造三层 Web 应用架构实战

GitHub信息收集

如何利用个人电脑搭建FTP文件服务器实现远程协作

第二章-AIGC入门-AI视频生成：几款实用AI视频生成工具全解析（7/36）