当前位置：首页 > news >正文

DeepConf：基于置信度提高LLM表现

news 2025/8/31 9:10:33

大语言模型（Large Language Models, LLMs）已通过测试时缩放方法-test-time scaling（如结合多数投票的自一致性方法：通过生成多条推理路径并以多数结果作为最终答案，提升推理可靠性），在推理任务中展现出巨大潜力。然而，这种方法往往会导致准确率提升进入 “收益递减” 阶段，同时产生高昂的计算开销。

为应对这些挑战，Meta AI提出了 “带置信度深度思考”（Deep Think with Confidence，DeepConf）方法。这是一种简单却高效的策略，能够在测试阶段同时提升推理效率与性能。DeepConf 利用模型内部的置信度信号，在推理轨迹生成过程中或生成后，动态筛选掉低质量的推理轨迹。该方法无需额外的模型训练或超参数调优，可无缝集成到现有的服务框架中。

在多种推理任务及最新开源模型（包括 Qwen 3 和 GPT-OSS 系列）上对 DeepConf 进行了评估。值得注意的是，在 AIME 2025 等具有挑战性的基准测试中，与全并行思考方法相比，DeepConf@512 的准确率最高可达 99.9%，且生成的 tokens 数量最多可减少 84.7%。

原文：https://arxiv.org/html/2508.15260v1

fig1

上图：DeepConf 方法在 AIME 2025（基准测试）上的表现。“cons@512” 指的是在有512条推理路径的情况下，采用无权重多数投票的方法。相比 DeepConf-low，DeepConf-high 在过滤轨迹上更为保守，它保留了更多推理轨迹。
下图：采用 DeepConf 方法的并行思考。

置信度作为推理质量的指标

近期研究表明，可利用从模型内部token分布中提取的指标，有效评估推理轨迹的质量。这些指标能提供模型内在信号，用于区分高质量推理轨迹与错误推理轨迹，且无需外部监督。

Token熵（Token Entropy）
给定语言模型在位置 $i$ 处的预测token分布 $P_i$ ，token熵定义为：

$Hi=−∑jPi(j)log⁡Pi(j)H_i = -\sum_j P_i(j)\log P_i(j)$

其中， $P_i(j)$ 代表词汇表中第 $j$ 个token的概率（ $P_i$ 是所有词汇表的概率分布，和为1）。低熵意味着分布集中，模型确定性高；高熵则反映预测存在不确定性。

Token置信度（Token Confidence）
我们将位置 $i$ 处的token置信度 $C_i$ 定义为该位置top- $k$ 个token的负平均对数概率：

$Ci=−1k∑j=1klog⁡Pi(j)C_i = -\frac{1}{k}\sum_{j=1}^k \log P_i(j)$

其中， $k$ 表示所考虑的top token数量。高置信度对应分布集中、模型确定性更强的情况；低置信度则表明token预测存在不确定性。

平均轨迹置信度（Average Trace Confidence）
token级指标需经过聚合，才能用于评估完整的推理轨迹。这里采用平均轨迹置信度（也称为“自我确定性”，self-certainty）作为轨迹级质量衡量标准：

$Cavg=1N∑i=1NCiC_{\text{avg}} = \frac{1}{N}\sum_{i=1}^N C_i$

其中， $N$ 为生成token的总数。如图2所示，平均轨迹置信度能有效区分正确与错误的推理路径，其值越高，推理路径正确的可能性越大。

fig2

图2：不同指标下正确与错误推理轨迹的置信度分布，数据来源：HMMT25（基准测试），包含 30 道题目，每道题目对应 4096 条推理轨迹。

尽管平均轨迹置信度具有一定有效性，但仍存在明显局限性：首先，全局聚合会掩盖中间推理过程中的错误——少数高置信度token可能掩盖大量低置信度片段，进而可能隐藏关键错误；其次，该方法需获取完整轨迹才能进行质量评估，无法提前终止低质量轨迹的生成，导致计算效率低下。

带置信度深度思考（Deep Think with Confidence，DeepConf）

DeepConf主要针对两种场景展开：离线思考与在线思考。其中，离线思考通过对已完成的推理轨迹进行评估与信息聚合，利用置信度提升推理性能；在线思考则在 token 生成过程中融入置信度，以实时提升推理性能和（或）计算效率。

置信度测量

为解决“自我确定性”等全局置信度度量方法的局限性，Meta AI提出了多种置信度度量方法。这些方法能够捕捉局部中间步骤的质量，为推理轨迹提供更精细的评估。

组置信度（Group Confidence）
我们使用组置信度对推理中间步骤的置信度进行量化。组置信度通过对推理轨迹的重叠片段取token置信度平均值，得到更具局部性且更平滑的信号。每个token都对应一个滑动窗口组 $G_i$ ，该窗口包含前 $n$ 个token（例如 $n = 1024$ 或 $n = 2048$ ），且相邻窗口存在重叠。对于每个组 $G_i$ ，组置信度定义为：

$CGi=1∣Gi∣∑t∈GiCtC_{G_i} = \frac{1}{|G_i|}\sum_{t \in G_i} C_t$

其中， $G_i|$ 表示组 $G_i$ 中包含的token数量。

评估推理轨迹质量需对组置信度信号进行聚合。实验发现，轨迹中置信度极低的中间步骤会显著影响最终解决方案的正确性。例如，当推理过程中置信度急剧下降，且伴随“wait（等等）”“however（然而）”“think again（再想想）”等重复出现的低置信度token时，会打断推理流程并导致后续错误。

后10%组置信度（Bottom 10% Group Confidence）
为捕捉置信度极低组的影响，我们提出后10%组置信度：轨迹置信度由该轨迹中置信度最低的10%组的平均值决定，定义为：

$Cbottom-10(t)=1∣Gb∣∑Gj∈GbCGjC_{\text{bottom-10}}(t) = \frac{1}{|G_b|}\sum_{G_j \in G_b} C_{G_j}$

其中， $G_b$ 表示置信度得分最低的10%组的集合。实验表明，在不同模型和数据集上，10%这一比例能有效捕捉到问题最严重的推理片段。

最低组置信度（Lowest Group Confidence）
我们还考虑了最低组置信度，它代表推理轨迹中置信度最低的组的置信度，是后10%组置信度的一种特殊情况。该度量方法仅基于置信度最低的组评估轨迹质量，定义为：

$Cleast(t)=min⁡Gj∈GCGjC_{\text{least}}(t) = \min_{G_j \in G} C_{G_j}$

其中， $G$ 表示推理轨迹中所有token组的集合。下文将阐述在在线思考场景中，最低组置信度如何提升推理效率。

尾部置信度（Tail Confidence）
除基于组的度量方法外，我们还提出尾部置信度：通过聚焦推理轨迹的最终片段评估其可靠性。提出该指标的依据是：观察发现，在较长的思考链中，推理质量往往在末尾下降，且最终步骤对得出正确结论至关重要。在数学推理中，最终答案与结论步骤尤为关键——即使中间推理过程表现良好，但若结尾部分质量低下，推理轨迹仍可能产生错误结果。尾部置信度 $CtailC_{\text{tail}}$ 定义为：

$Ctail(t)=1∣Ttail∣∑t∈TtailCtC_{\text{tail}}(t) = \frac{1}{|T_{\text{tail}}|}\sum_{t \in T_{\text{tail}}} C_t$

其中， $TtailT_{\text{tail}}$ 表示轨迹末尾固定数量的token（例如2048个）。如图2所示，不同置信度度量方法的对比结果显示：与均值置信度方法相比，后10%组置信度和尾部置信度能更清晰地分离“错误推理轨迹”与“正确推理轨迹”的分布，这表明这两种度量方法在轨迹质量评估中更有效。

带置信度的离线思考

本节将阐述如何在离线场景中应用多种置信度度量方法，以提升推理性能。在离线思考中，每个问题的推理轨迹均已生成，核心挑战在于聚合多条轨迹的信息，从而更准确地确定最终答案。尽管近期有研究提出利用大语言模型（LLMs）总结和分析推理轨迹，但本文重点关注标准的“多数投票”策略。

多数投票（Majority Voting）
在标准多数投票中，每条推理轨迹得出的最终答案对最终决策的贡献权重完全相同。设 $T$ 为所有生成轨迹的集合，对于每条轨迹 $\in T$ ，用 $answer(t)\text{answer}(t)$ 表示从轨迹 $t$ 中提取的答案字符串。则每个候选答案 $a$ 的得票数定义为：

$V(a)=∑t∈TI(answer(t)=a)\text{V}(a) = \sum_{t \in T} \text{I}(\text{answer}(t) = a)$ ，

其中 $I{⋅}\text{I}\{\cdot\}$ 为指示函数（若括号内条件成立，函数值为1；否则为0）。最终答案选择得票数最高的候选答案：

$a^=arg⁡max⁡aV(a)\hat{a} = \arg\max_a \text{V}(a)$ 。

置信度加权多数投票（Confidence-Weighted Majority Voting）
该方法不再对每条轨迹的投票赋予同等权重，而是根据轨迹自身的置信度为其最终答案加权。对于每个候选答案 $a$ ，其总得票权重定义为：

$V(a)=∑t∈TCt⋅I(answer(t)=a)\text{V}(a) = \sum_{t \in T} C_t \cdot \text{I}(\text{answer}(t) = a)$ ，

这种投票机制会向“由高置信度轨迹支持的答案”倾斜，从而降低不确定或低质量推理答案对最终结果的影响。

置信度筛选（Confidence Filtering）
除加权多数投票外，还引入置信度筛选，以确保后续分析聚焦于高置信度推理轨迹。置信度筛选的核心是：根据轨迹置信度得分，筛选出排名前 $η%\eta\%$ 的轨迹，仅让最可靠的推理路径参与最终答案的决策。在所有置信度度量方法中，我们提供两种筛选比例选项： $η=10%\eta=10\%$ 和 $η=90%\eta=90\%$ 。

前10%筛选：聚焦置信度最高的轨迹，适用于“少量可靠轨迹即可产出准确结果”的场景。但需注意，若仅依赖极少数轨迹，当模型存在偏见时，可能会增加得出错误答案的风险。
前90%筛选：采用更均衡的策略，通过纳入范围更广的轨迹，在保留推理多样性的同时降低模型偏见。这一选项能确保“备选推理路径”被纳入考虑，尤其适用于“置信度分布较为均匀”的情况。

带置信度的在线思考

在在线思考过程中，通过实时评估置信度，可在推理轨迹生成时对其质量进行实时判断，从而动态终止“无前景”（即质量大概率较低）的轨迹。这种方法在资源受限环境或需要快速响应的场景中尤为重要。前文提出的最低组置信度指标可在此在线场景中有效应用：当token组的置信度低于某一关键阈值时，即可停止该轨迹的生成——这能确保此类低质量轨迹在后续置信度筛选环节中也会被排除。

基于最低组置信度，Meta提出两种在线思考算法：DeepConf-low和DeepConf-high。二者均能在在线思考过程中自适应地停止轨迹生成，并调整轨迹生成预算。该方法包含两个核心模块：离线预热（offline warmup）与自适应采样（adaptive sampling）。

离线预热（Offline Warmup）
DeepConf需要通过离线预热阶段确定在线生成时的 停止阈值 $s$ 。对于每个新的输入提示（prompt），首先生成 $NinitN_{\text{init}}$ 条推理轨迹（例如 $Ninit=16N_{\text{init}}=16$ ）。停止阈值 $s$ 定义为：

$\text{Percentile}_{100-\eta}(\{C_t : t \in T_{\text{warmup}}\})$ ，

其中：

$TwarmupT_{\text{warmup}}$ 代表所有预热轨迹的集合；
$C_t$ 为轨迹 $t$ 的置信度（此处采用最低组置信度）；
$η\eta$ 为预设的“保留比例”（即希望保留的高置信度轨迹占比）。

具体而言，在所有实验设置中：

DeepConf-low采用 $η=10%\eta=10\%$ 的保留比例（即仅保留置信度前10%的预热轨迹，阈值 $s$ 为前10%轨迹的最低置信度）；
DeepConf-high采用 $η=90%\eta=90\%$ 的保留比例（即保留置信度前90%的预热轨迹，阈值 $s$ 为前90%轨迹的最低置信度）。

该阈值的作用是：在后续在线生成阶段，当某条轨迹的置信度低于 $s$ 时，立即终止其生成——这意味着该轨迹即使完整生成，也会因置信度未达“保留比例 $η\eta$ ”的要求而被筛选掉。

自适应采样（Adaptive Sampling）
在DeepConf的所有算法中，我们均采用自适应采样策略，根据问题难度动态调整生成的轨迹数量。问题难度通过“已生成轨迹的答案一致性”来评估，具体量化方式为“多数投票权重占总投票权重的比例”：

$β=V(a^)∑aV(a)\beta = \frac{\text{V}(\hat{a})}{\sum_a \text{V}(a)}$ ，

其中：

$a^\hat{a}$ 为当前得票权重最高的候选答案；
$V(a^)\text{V}(\hat{a})$ 为 $a^\hat{a}$ 的总得票权重（采用置信度加权投票）；
$∑aV(a)\sum_a \text{V}(a)$ 为所有候选答案的总得票权重之和。

设 $τ\tau$ 为预设的“一致性阈值”，则自适应采样的逻辑如下：

若 $β<τ\beta < \tau$ ：说明当前生成的轨迹对答案尚未达成一致，问题难度较高，需继续生成轨迹，直至达到预设的“轨迹生成预算 $B$ ”（即最大允许生成的轨迹总数）；
若 $β≥τ\beta \geq \tau$ ：说明轨迹对答案已达成足够一致，可停止生成新轨迹，直接基于现有轨迹确定最终答案。

由于采用最低组置信度作为核心指标，足够大的预热轨迹集能确保停止阈值 $s$ 的估计准确性。因此，所有在在线阶段被终止的轨迹，其组置信度必然小于 $s$ ，且在后续离线筛选中会被排除。这使得在线思考流程能够近似模拟“基于最低组置信度的离线策略”，且随着预热轨迹数量 $NinitN_{\text{init}}$ 的增加，在线思考的准确率会逐渐接近离线思考的准确率。