DeepConf:基于置信度提高LLM表现
大语言模型(Large Language Models, LLMs)已通过测试时缩放方法-test-time scaling(如结合多数投票的自一致性方法:通过生成多条推理路径并以多数结果作为最终答案,提升推理可靠性),在推理任务中展现出巨大潜力。然而,这种方法往往会导致准确率提升进入 “收益递减” 阶段,同时产生高昂的计算开销。
为应对这些挑战,Meta AI提出了 “带置信度深度思考”(Deep Think with Confidence,DeepConf)方法 。这是一种简单却高效的策略,能够在测试阶段同时提升推理效率与性能。DeepConf 利用模型内部的置信度信号,在推理轨迹生成过程中或生成后,动态筛选掉低质量的推理轨迹。该方法无需额外的模型训练或超参数调优,可无缝集成到现有的服务框架中。
在多种推理任务及最新开源模型(包括 Qwen 3 和 GPT-OSS 系列)上对 DeepConf 进行了评估。值得注意的是,在 AIME 2025 等具有挑战性的基准测试中,与全并行思考方法相比,DeepConf@512 的准确率最高可达 99.9%,且生成的 tokens 数量最多可减少 84.7%。
原文:https://arxiv.org/html/2508.15260v1
- 上图:DeepConf 方法在 AIME 2025(基准测试)上的表现。“cons@512” 指的是在有512条推理路径的情况下,采用无权重多数投票的方法。相比 DeepConf-low,DeepConf-high 在过滤轨迹上更为保守,它保留了更多推理轨迹。
- 下图:采用 DeepConf 方法的并行思考。
目录
- 置信度作为推理质量的指标
- 带置信度深度思考(Deep Think with Confidence,DeepConf)
- 置信度测量
- 带置信度的离线思考
- 带置信度的在线思考
置信度作为推理质量的指标
近期研究表明,可利用从模型内部token分布中提取的指标,有效评估推理轨迹的质量。这些指标能提供模型内在信号,用于区分高质量推理轨迹与错误推理轨迹,且无需外部监督。
Token熵(Token Entropy)
给定语言模型在位置iii处的预测token分布PiP_iPi,token熵定义为:
Hi=−∑jPi(j)logPi(j)H_i = -\sum_j P_i(j)\log P_i(j)Hi=−∑jPi(j)logPi(j)
其中,Pi(j)P_i(j)Pi(j)代表词汇表中第jjj个token的概率(PiP_iPi是所有词汇表的概率分布,和为1)。低熵意味着分布集中,模型确定性高;高熵则反映预测存在不确定性。
Token置信度(Token Confidence)
我们将位置iii处的token置信度CiC_iCi定义为该位置top-kkk个token的负平均对数概率:
Ci=−1k∑j=1klogPi(j)C_i = -\frac{1}{k}\sum_{j=1}^k \log P_i(j)Ci=−k1∑j=1klogPi(j)
其中,kkk表示所考虑的top token数量。高置信度对应分布集中、模型确定性更强的情况;低置信度则表明token预测存在不确定性。
平均轨迹置信度(Average Trace Confidence)
token级指标需经过聚合,才能用于评估完整的推理轨迹。这里采用平均轨迹置信度(也称为“自我确定性”,self-certainty)作为轨迹级质量衡量标准:
Cavg=1N∑i=1NCiC_{\text{avg}} = \frac{1}{N}\sum_{i=1}^N C_iCavg=N1∑i=1NCi
其中,NNN为生成token的总数。如图2所示,平均轨迹置信度能有效区分正确与错误的推理路径,其值越高,推理路径正确的可能性越大。
- 图2:不同指标下正确与错误推理轨迹的置信度分布,数据来源:HMMT25(基准测试),包含 30 道题目,每道题目对应 4096 条推理轨迹。
尽管平均轨迹置信度具有一定有效性,但仍存在明显局限性:首先,全局聚合会掩盖中间推理过程中的错误——少数高置信度token可能掩盖大量低置信度片段,进而可能隐藏关键错误;其次,该方法需获取完整轨迹才能进行质量评估,无法提前终止低质量轨迹的生成,导致计算效率低下。
带置信度深度思考(Deep Think with Confidence,DeepConf)
DeepConf主要针对两种场景展开:离线思考与在线思考。其中,离线思考通过对已完成的推理轨迹进行评估与信息聚合,利用置信度提升推理性能;在线思考则在 token 生成过程中融入置信度,以实时提升推理性能和(或)计算效率。
置信度测量
为解决“自我确定性”等全局置信度度量方法的局限性,Meta AI提出了多种置信度度量方法。这些方法能够捕捉局部中间步骤的质量,为推理轨迹提供更精细的评估。
组置信度(Group Confidence)
我们使用组置信度对推理中间步骤的置信度进行量化。组置信度通过对推理轨迹的重叠片段取token置信度平均值,得到更具局部性且更平滑的信号。每个token都对应一个滑动窗口组GiG_iGi,该窗口包含前nnn个token(例如n=1024n=1024n=1024或n=2048n=2048n=2048),且相邻窗口存在重叠。对于每个组GiG_iGi,组置信度定义为:
CGi=1∣Gi∣∑t∈GiCtC_{G_i} = \frac{1}{|G_i|}\sum_{t \in G_i} C_tCGi=∣Gi∣1∑t∈GiCt
其中,∣Gi∣|G_i|∣Gi∣表示组GiG_iGi中包含的token数量。
评估推理轨迹质量需对组置信度信号进行聚合。实验发现,轨迹中置信度极低的中间步骤会显著影响最终解决方案的正确性。例如,当推理过程中置信度急剧下降,且伴随“wait(等等)”“however(然而)”“think again(再想想)”等重复出现的低置信度token时,会打断推理流程并导致后续错误。
后10%组置信度(Bottom 10% Group Confidence)
为捕捉置信度极低组的影响,我们提出后10%组置信度:轨迹置信度由该轨迹中置信度最低的10%组的平均值决定,定义为:
Cbottom-10(t)=1∣Gb∣∑Gj∈GbCGjC_{\text{bottom-10}}(t) = \frac{1}{|G_b|}\sum_{G_j \in G_b} C_{G_j}Cbottom-10(t)=∣Gb∣1∑Gj∈GbCGj
其中,GbG_bGb表示置信度得分最低的10%组的集合。实验表明,在不同模型和数据集上,10%这一比例能有效捕捉到问题最严重的推理片段。
最低组置信度(Lowest Group Confidence)
我们还考虑了最低组置信度,它代表推理轨迹中置信度最低的组的置信度,是后10%组置信度的一种特殊情况。该度量方法仅基于置信度最低的组评估轨迹质量,定义为:
Cleast(t)=minGj∈GCGjC_{\text{least}}(t) = \min_{G_j \in G} C_{G_j}Cleast(t)=minGj∈GCGj
其中,GGG表示推理轨迹中所有token组的集合。下文将阐述在在线思考场景中,最低组置信度如何提升推理效率。
尾部置信度(Tail Confidence)
除基于组的度量方法外,我们还提出尾部置信度:通过聚焦推理轨迹的最终片段评估其可靠性。提出该指标的依据是:观察发现,在较长的思考链中,推理质量往往在末尾下降,且最终步骤对得出正确结论至关重要。在数学推理中,最终答案与结论步骤尤为关键——即使中间推理过程表现良好,但若结尾部分质量低下,推理轨迹仍可能产生错误结果。尾部置信度CtailC_{\text{tail}}Ctail定义为:
Ctail(t)=1∣Ttail∣∑t∈TtailCtC_{\text{tail}}(t) = \frac{1}{|T_{\text{tail}}|}\sum_{t \in T_{\text{tail}}} C_tCtail(t)=∣Ttail∣1∑t∈TtailCt
其中,TtailT_{\text{tail}}Ttail表示轨迹末尾固定数量的token(例如2048个)。如图2所示,不同置信度度量方法的对比结果显示:与均值置信度方法相比,后10%组置信度和尾部置信度能更清晰地分离“错误推理轨迹”与“正确推理轨迹”的分布,这表明这两种度量方法在轨迹质量评估中更有效。
带置信度的离线思考
本节将阐述如何在离线场景中应用多种置信度度量方法,以提升推理性能。在离线思考中,每个问题的推理轨迹均已生成,核心挑战在于聚合多条轨迹的信息,从而更准确地确定最终答案。尽管近期有研究提出利用大语言模型(LLMs)总结和分析推理轨迹,但本文重点关注标准的“多数投票”策略。
多数投票(Majority Voting)
在标准多数投票中,每条推理轨迹得出的最终答案对最终决策的贡献权重完全相同。设TTT为所有生成轨迹的集合,对于每条轨迹t∈Tt \in Tt∈T,用answer(t)\text{answer}(t)answer(t)表示从轨迹ttt中提取的答案字符串。则每个候选答案aaa的得票数定义为:
V(a)=∑t∈TI(answer(t)=a)\text{V}(a) = \sum_{t \in T} \text{I}(\text{answer}(t) = a)V(a)=∑t∈TI(answer(t)=a),
其中I{⋅}\text{I}\{\cdot\}I{⋅}为指示函数(若括号内条件成立,函数值为1;否则为0)。最终答案选择得票数最高的候选答案:
a^=argmaxaV(a)\hat{a} = \arg\max_a \text{V}(a)a^=argmaxaV(a)。
置信度加权多数投票(Confidence-Weighted Majority Voting)
该方法不再对每条轨迹的投票赋予同等权重,而是根据轨迹自身的置信度为其最终答案加权。对于每个候选答案aaa,其总得票权重定义为:
V(a)=∑t∈TCt⋅I(answer(t)=a)\text{V}(a) = \sum_{t \in T} C_t \cdot \text{I}(\text{answer}(t) = a)V(a)=∑t∈TCt⋅I(answer(t)=a),
这种投票机制会向“由高置信度轨迹支持的答案”倾斜,从而降低不确定或低质量推理答案对最终结果的影响。
置信度筛选(Confidence Filtering)
除加权多数投票外,还引入置信度筛选,以确保后续分析聚焦于高置信度推理轨迹。置信度筛选的核心是:根据轨迹置信度得分,筛选出排名前η%\eta\%η%的轨迹,仅让最可靠的推理路径参与最终答案的决策。在所有置信度度量方法中,我们提供两种筛选比例选项:η=10%\eta=10\%η=10%和η=90%\eta=90\%η=90%。
- 前10%筛选:聚焦置信度最高的轨迹,适用于“少量可靠轨迹即可产出准确结果”的场景。但需注意,若仅依赖极少数轨迹,当模型存在偏见时,可能会增加得出错误答案的风险。
- 前90%筛选:采用更均衡的策略,通过纳入范围更广的轨迹,在保留推理多样性的同时降低模型偏见。这一选项能确保“备选推理路径”被纳入考虑,尤其适用于“置信度分布较为均匀”的情况。
带置信度的在线思考
在在线思考过程中,通过实时评估置信度,可在推理轨迹生成时对其质量进行实时判断,从而动态终止“无前景”(即质量大概率较低)的轨迹。这种方法在资源受限环境或需要快速响应的场景中尤为重要。前文提出的最低组置信度指标可在此在线场景中有效应用:当token组的置信度低于某一关键阈值时,即可停止该轨迹的生成——这能确保此类低质量轨迹在后续置信度筛选环节中也会被排除。
基于最低组置信度,Meta提出两种在线思考算法:DeepConf-low和DeepConf-high。二者均能在在线思考过程中自适应地停止轨迹生成,并调整轨迹生成预算。该方法包含两个核心模块:离线预热(offline warmup)与自适应采样(adaptive sampling)。
离线预热(Offline Warmup)
DeepConf需要通过离线预热阶段确定在线生成时的 停止阈值sss。对于每个新的输入提示(prompt),首先生成NinitN_{\text{init}}Ninit条推理轨迹(例如Ninit=16N_{\text{init}}=16Ninit=16)。停止阈值sss定义为:
s=Percentile100−η({Ct:t∈Twarmup})s = \text{Percentile}_{100-\eta}(\{C_t : t \in T_{\text{warmup}}\})s=Percentile100−η({Ct:t∈Twarmup}),
其中:
- TwarmupT_{\text{warmup}}Twarmup代表所有预热轨迹的集合;
- CtC_tCt为轨迹ttt的置信度(此处采用最低组置信度);
- η\etaη为预设的“保留比例”(即希望保留的高置信度轨迹占比)。
具体而言,在所有实验设置中:
- DeepConf-low采用η=10%\eta=10\%η=10%的保留比例(即仅保留置信度前10%的预热轨迹,阈值sss为前10%轨迹的最低置信度);
- DeepConf-high采用η=90%\eta=90\%η=90%的保留比例(即保留置信度前90%的预热轨迹,阈值sss为前90%轨迹的最低置信度)。
该阈值的作用是:在后续在线生成阶段,当某条轨迹的置信度低于sss时,立即终止其生成——这意味着该轨迹即使完整生成,也会因置信度未达“保留比例η\etaη”的要求而被筛选掉。
自适应采样(Adaptive Sampling)
在DeepConf的所有算法中,我们均采用自适应采样策略,根据问题难度动态调整生成的轨迹数量。问题难度通过“已生成轨迹的答案一致性”来评估,具体量化方式为“多数投票权重占总投票权重的比例”:
β=V(a^)∑aV(a)\beta = \frac{\text{V}(\hat{a})}{\sum_a \text{V}(a)}β=∑aV(a)V(a^),
其中:
- a^\hat{a}a^为当前得票权重最高的候选答案;
- V(a^)\text{V}(\hat{a})V(a^)为a^\hat{a}a^的总得票权重(采用置信度加权投票);
- ∑aV(a)\sum_a \text{V}(a)∑aV(a)为所有候选答案的总得票权重之和。
设τ\tauτ为预设的“一致性阈值”,则自适应采样的逻辑如下:
- 若β<τ\beta < \tauβ<τ:说明当前生成的轨迹对答案尚未达成一致,问题难度较高,需继续生成轨迹,直至达到预设的“轨迹生成预算BBB”(即最大允许生成的轨迹总数);
- 若β≥τ\beta \geq \tauβ≥τ:说明轨迹对答案已达成足够一致,可停止生成新轨迹,直接基于现有轨迹确定最终答案。
由于采用最低组置信度作为核心指标,足够大的预热轨迹集能确保停止阈值sss的估计准确性。因此,所有在在线阶段被终止的轨迹,其组置信度必然小于sss,且在后续离线筛选中会被排除。这使得在线思考流程能够近似模拟“基于最低组置信度的离线策略”,且随着预热轨迹数量NinitN_{\text{init}}Ninit的增加,在线思考的准确率会逐渐接近离线思考的准确率。