当前位置: 首页 > news >正文

连续空间链式推理与SoftCoT++介绍

论文标题

SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

论文地址

https://arxiv.org/pdf/2505.11484

代码地址

https://github.com/xuyige/SoftCoT

作者背景

南阳理工大学,不列颠哥伦比亚大学,阿里巴巴,瑞士皇家理工学院

动机

“思维链”通过在推理时投入更多计算开销来提升大模型的表现,但传统的CoT方法都是在离散空间(即自然语言)下进行推理扩展,开销大、速度慢(需要多次采样产生长篇幅的文本思路)。此外,语言空间也并不一定是推理的最佳载体:生成的许多词语只是确保表述连贯,并非推理本质所需

“连续空间链式推理”便是一类不再让模型解码出可读的“思路”,而是在隐空间中进行“思考”的方法

Coconut:连续空间的思维链

Coconut是在连续空间进行推理的开创性工作之一,它让LLM跳过中间的文本输出,直接利用模型最后一层的隐藏状态向量作为思维的表示。具体地,对于一个需要多步推理的问题,Coconut让模型生成第一个思考步骤的隐藏向量,不将其解码成token,而是直接将该向量反馈给模型作为下一步的输入嵌入。如此迭代,模型在内部隐空间中开展一连串推理,直到问题解决。这种方法避免了用自然语言描述思路可能带来的冗余和信息丢失

在这里插入图片描述

令人惊喜的是,在连续空间进行推理确实具备明显的优势:隐状态向量往往隐含了多个可能的后续推理分支,模型因此能够在内部对不同选项进行并行探索,就像在“脑海中”进行广度优先搜索一样。所以在需要大量回溯和规划的复杂逻辑任务上,Coconut 相比离散CoT 展现了更强性能,且因为省去了冗长的文本思路,推理token更少、效率更高

然而,要让大模型适应在连续空间中的推理,需要对其进行微调训练,这不仅面临着较大的计算开销,还非常容易造成灾难性遗忘。尤其是在如今模型越来越大、后训练流程越来越多的情况下,对一个已经良好掌握零样本推理的模型再进行此类训练,原本的性能难有保障

在这里插入图片描述

SoftCoT:软链式思维高效推理

SoftCoT 的目标是在不改动大模型主体的前提下,利用连续空间推理来提高效率和性能。与 Coconut 需要对模型本身进行重新训练不同,它引入了一个轻量级的辅助模块来生成潜在思维链。具体地,SoftCoT使用一个较小的语言模型来生成一系列隐式的思维步骤,这些步骤不是可读文字,而是一系列可学习的向量,称为软思考token或软思维嵌入;接下来,SoftCoT 通过一个可训练的投影模块,将这些软思维向量映射到大模型的表示空间,相当于在大模型的输入序列中插入了一段“隐式思路提示”;最后,大模型在自身参数不变的情况下,接收该潜在思路和原始问题一起作为输入,生成最终答案

在这里插入图片描述

然而,SoftCoT 对于每个输入仅生成一条软链式思维路径,缺乏补救或探索其它思路的机制,回答的质量高度依赖于小模型一次性猜想的准确性,这在实践中很可能是负优化:丧失了原始的CoT本身还可以通过多次采样+多数表决提高正确率的优势

这里其实体现了在连续空间进行思考的劣势:由于缺少了token解码这一步骤,模型很难去生成截然不同的多种思路(连续空间中隐向量的生成过程是固定的)

下面将要介绍的SoftCoT++方法,便是解决了上述劣势,让模型具备了生成多样化连续空间思维链的方法

本文方法

SoftCoT++ 是对 SoftCoT 的改进,核心思想包括:

一、多样化的初始Token扰动

在辅助模型生成软思维链时,SoftCoT++ 准备了若干个特殊的“初始隐向量”。可以把它们理解为不同的“思考起手式”——每个初始向量都是可学习的参数,代表一种独特的思维模式或推理角度。对于同一道问题,SoftCoT++会分别在每个初始向量的引导下,从略有不同的起点出发思考,进而自发形成多样化的推理过程。例如,初始向量A可能引导模型优先进行算术演算,初始向量B则可能引导模型先进行逻辑排除

二、对比学习确保思维差异

为了强化不同软思维路径之间的差异性,SoftCoT++在训练过程中引入了对比学习目标:我们希望模型针对同一问题产生的不同思维表示彼此距离较远,而不是互相聚集。具体可采用 InfoNCE 损失等手段,将不同路径的隐表示视为相互的“负样本”,鼓励模型能区分“这是由初始向量A产生的思路”还是“由B产生的思路”。通过这样的训练,SoftCoT++有效地促进软思维表示的多样性——每个初始token都会开发出相对独特的推理方式,极大减少了不同路径“思维同质化”的情况

三、保持路径质量

多样性虽重要,但最终目的仍是求解正确答案。为此,SoftCoT++在训练中会对每条路径的输出进行监督学习,促使每个推理序列都能引导模型得到正确结果。这相当于给模型提出一个严格要求:不管用哪种思维起手式,都应该学会得到正确答案

四、测试时的推理扩展

在推理阶段,SoftCoT++会针对提问平行地生成多条潜在思维链,然后通过投影模块将其注入到主LLM的表示层,与问题一起构成不同的“提示”;主LLM对此进行推理,输出多个答案候选;接下来通过投票或者置信度从多个候选中决定最终结果

图片

实验结果

作者在LLaMA3.1-8B和Qwen3-8B两种模型上实现了SoftCoT++,并在数学、常识、符号推理基准任务上进行测试,效果稳定提升

在这里插入图片描述

相关文章:

  • 邂逅Node.js
  • IEEE 802.1Q协议下封装的VLAN数据帧格式
  • 如何管理和优化内核参数
  • CNBC专访CertiK联创顾荣辉:从形式化验证到AI赋能,持续拓展Web3.0信任边界
  • matlab编写的BM3D图像去噪方法
  • 深入浅出IIC协议 - 从总线原理到FPGA实战开发 -- 第三篇:Verilog实现I2C Master核
  • 【蓝桥杯真题精讲】第 16 届 Python A 组(省赛)
  • 网络安全之网络攻击spring临时文件利用
  • AR 开启昆虫学习新视界,解锁奇妙微观宇宙
  • 流复备机断档处理
  • 当前主流的传输技术(如OTN、IP-RAN、FlexE等)
  • 能管理MySQL、Oracle、达梦数据库的桌面管理软件开源了
  • 【神经网络与深度学习】扩散模型之原理解释
  • 第 84 场周赛:翻转图像、字符串中的查找与替换、图像重叠、树中距离之和
  • 常用UI自动化测试框架
  • 基于服务器的 DPI 深度分析解决方案
  • #渗透测试#批量漏洞挖掘#LiveBos UploadFile(CVE-2021-77663-2336) 任意文件上传漏洞
  • CAP分布式理论
  • Linux 系统不终止进程的情况下关闭长连接
  • MCP专题 | 探索MCP服务器世界:增强AI能力的精选推荐
  • 围绕“工程智能”系统布局,同济大学官宣成立五大研究院
  • 韩国总统选举白热化进行中,中韩青年民间交流促两国友好往来
  • 上海乐高乐园客流预测来了:工作日0.8万人次/日,周末节假日2万人次/日
  • 凤阳县鼓楼四周连夜搭起围挡,安徽省文物局已介入调查
  • 济南一医院救护车未执行紧急任务时违规鸣笛
  • 外汇局:4月下旬外资投资境内股票转为净买入