当前位置：首页 > news >正文

连续空间链式推理与SoftCoT++介绍

news 2025/7/7 9:06:55

论文标题

SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

论文地址

https://arxiv.org/pdf/2505.11484

代码地址

https://github.com/xuyige/SoftCoT

作者背景

南阳理工大学，不列颠哥伦比亚大学，阿里巴巴，瑞士皇家理工学院

动机

“思维链”通过在推理时投入更多计算开销来提升大模型的表现，但传统的CoT方法都是在离散空间（即自然语言）下进行推理扩展，开销大、速度慢（需要多次采样产生长篇幅的文本思路）。此外，语言空间也并不一定是推理的最佳载体：生成的许多词语只是确保表述连贯，并非推理本质所需

“连续空间链式推理”便是一类不再让模型解码出可读的“思路”，而是在隐空间中进行“思考”的方法

Coconut：连续空间的思维链

Coconut是在连续空间进行推理的开创性工作之一，它让LLM跳过中间的文本输出，直接利用模型最后一层的隐藏状态向量作为思维的表示。具体地，对于一个需要多步推理的问题，Coconut让模型生成第一个思考步骤的隐藏向量，不将其解码成token，而是直接将该向量反馈给模型作为下一步的输入嵌入。如此迭代，模型在内部隐空间中开展一连串推理，直到问题解决。这种方法避免了用自然语言描述思路可能带来的冗余和信息丢失

在这里插入图片描述

令人惊喜的是，在连续空间进行推理确实具备明显的优势：隐状态向量往往隐含了多个可能的后续推理分支，模型因此能够在内部对不同选项进行并行探索，就像在“脑海中”进行广度优先搜索一样。所以在需要大量回溯和规划的复杂逻辑任务上，Coconut 相比离散CoT 展现了更强性能，且因为省去了冗长的文本思路，推理token更少、效率更高

然而，要让大模型适应在连续空间中的推理，需要对其进行微调训练，这不仅面临着较大的计算开销，还非常容易造成灾难性遗忘。尤其是在如今模型越来越大、后训练流程越来越多的情况下，对一个已经良好掌握零样本推理的模型再进行此类训练，原本的性能难有保障

在这里插入图片描述

SoftCoT：软链式思维高效推理

SoftCoT 的目标是在不改动大模型主体的前提下，利用连续空间推理来提高效率和性能。与 Coconut 需要对模型本身进行重新训练不同，它引入了一个轻量级的辅助模块来生成潜在思维链。具体地，SoftCoT使用一个较小的语言模型来生成一系列隐式的思维步骤，这些步骤不是可读文字，而是一系列可学习的向量，称为软思考token或软思维嵌入；接下来，SoftCoT 通过一个可训练的投影模块，将这些软思维向量映射到大模型的表示空间，相当于在大模型的输入序列中插入了一段“隐式思路提示”；最后，大模型在自身参数不变的情况下，接收该潜在思路和原始问题一起作为输入，生成最终答案

在这里插入图片描述

然而，SoftCoT 对于每个输入仅生成一条软链式思维路径，缺乏补救或探索其它思路的机制，回答的质量高度依赖于小模型一次性猜想的准确性，这在实践中很可能是负优化：丧失了原始的CoT本身还可以通过多次采样+多数表决提高正确率的优势

这里其实体现了在连续空间进行思考的劣势：由于缺少了token解码这一步骤，模型很难去生成截然不同的多种思路（连续空间中隐向量的生成过程是固定的）

下面将要介绍的SoftCoT++方法，便是解决了上述劣势，让模型具备了生成多样化连续空间思维链的方法

本文方法

SoftCoT++ 是对 SoftCoT 的改进，核心思想包括：

一、多样化的初始Token扰动

在辅助模型生成软思维链时，SoftCoT++ 准备了若干个特殊的“初始隐向量”。可以把它们理解为不同的“思考起手式”——每个初始向量都是可学习的参数，代表一种独特的思维模式或推理角度。对于同一道问题，SoftCoT++会分别在每个初始向量的引导下，从略有不同的起点出发思考，进而自发形成多样化的推理过程。例如，初始向量A可能引导模型优先进行算术演算，初始向量B则可能引导模型先进行逻辑排除

二、对比学习确保思维差异

为了强化不同软思维路径之间的差异性，SoftCoT++在训练过程中引入了对比学习目标：我们希望模型针对同一问题产生的不同思维表示彼此距离较远，而不是互相聚集。具体可采用 InfoNCE 损失等手段，将不同路径的隐表示视为相互的“负样本”，鼓励模型能区分“这是由初始向量A产生的思路”还是“由B产生的思路”。通过这样的训练，SoftCoT++有效地促进软思维表示的多样性——每个初始token都会开发出相对独特的推理方式，极大减少了不同路径“思维同质化”的情况