【大模型推理论文阅读】 Thinking Tokens are Information Peaks in LLM Reasoning
Demystifying Reasoning Dynamics with Mutual Information:Thinking Tokens are Information Peaks in LLM Reasoning
摘要
大语言推理模型(LRM)在复杂问题解决方面展现出了令人瞩目的能力,但其内部推理机制仍未得到充分理解。在本文中,我们从信息论的角度研究了LRM的推理轨迹。通过追踪中间表征与正确答案之间的互信息(MI)在LRM推理过程中的演变,我们观察到一个有趣的 “MI峰值” 现象:在LRM的推理过程中,特定生成步骤的MI会突然显著增加。我们从理论上分析了这一现象,并表明随着MI的增加,模型预测错误的概率会降低。此外,这些MI峰值通常对应于表达反思或过渡的token,如 “Hmm”、“Wait” 和 “Therefore”,我们将其称为 “思考token”。然后,我们证明了这些思考token对LRM的推理性能至关重要,而其他token的影响则微乎其微。基于这些分析,我们提出了两种简单而有效的方法,通过巧妙利用这些思考token来提高LRM的推理性能。总体而言,我们的工作为LRM的推理机制提供了新的见解,并为提升其推理能力提供了切实可行的方法。代码可在 https://github.com/ChnQ/MI-Peaks 获取。
1. introduction
大语言模型(LLMs)的推理能力已成为其最强大、最关键的能力之一。通过在给出答案之前对问题进行明确思考,并将复杂问题分解为多个步骤,大语言模型在数学、编程和逻辑推理等复杂推理任务中取得了令人瞩目的进展。理解和提升大语言模型的推理能力是实现通用人工智能(AGI)的关键途径。
通过在基础大语言模型上进行推理密集型训练,最近的大型推理模型(LRMs),如OpenAI的o1、DeepSeek的R1和QwQ,已经展现出卓越的推理能力,显著拓展了复杂问题解决的边界。然而,尽管取得了这些进展,这些能力背后的机制在很大程度上仍未得到充分探索。推理过程的内部动态,以及每个中间步骤对最终答案的影响,在很大程度上仍然是一个 “黑箱”。虽然可信人工智能领域的一些研究表明存在直接影响大语言模型答案安全性的 “关键token”,但一个自然的问题出现了:在大型推理模型的推理过程中,是否存在显著影响最终结果的关键推理步骤或中间状态?
在本文中,我们从信息论的角度探讨这个问题。具体来说,给定一个问题,我们动态计算推理过程每一步中语言推理模型(LRM)的表征与正确答案(即真实响应)之间的互信息(MI),观察MI如何演变。有趣的是,我们发现某些步骤的表征与正确答案之间的MI会突然显著增加。如图1(a)所示,这些具有MI峰值的表征是稀疏的,并且在整个推理过程中出现的频率并不均匀。这表明在某些关键的推理步骤中,LRM的表征对于正确答案具有高度的信息性。自然而然地,这就引出了一个问题:这些MI峰值是否可能与模型的推理性能相关?从理论上讲,我们对MI峰值现象提供了初步的见解,证明随着表征与正确答案之间的累积MI增加,LRM错误预测的概率会降低。此外,我们的实验表明,这些LRM对应的基础模型(例如,LLaMA - 3.1 - 8B)并没有如此明显地表现出这种MI峰值现象。这些分析表明,在LRM推理过程中观察到的明显MI峰值可能源于推理密集型训练,并且可能与LRM先进的推理能力存在潜在关系。
这自然引出一个问题:在推理过程中,互信息峰值处的表征起到了什么语义作用?有趣的是,我们发现,具有互信息峰值的这些表征主要对应于诸如 “Wait(等等)”、“Hmm(嗯)”、“Therefore(因此)”、“So(所以)” 等token,如图1(b)所示,这些token通常表达反思、自我修正或过渡。在这里,我们将这些具有互信息峰值的token称为 “思考token”。由于这些思考token明确促使模型进行反思和推理,并且它们的表征携带了与正确答案相关的丰富信息,我们假设这些思考token可能在模型的推理能力中发挥关键作用。为了验证这一假设,我们抑制这些思考token的生成,并观察模型的推理性能如何变化。如图5所示,完全抑制这些思考token的生成会显著损害模型的推理性能,而随机抑制相同数量的token则影响不大。这表明,这些思考token对于大语言模型的推理能力确实至关重要。
最后,从上述分析中得出启示,我们提出以两种无需训练的方式来提升大语言模型(LRMs)的推理性能。1)通过让模型内信息最大化(MI)峰值处的表征进行多次迭代,我们提出一种称为表征循环利用(RR)的方法。RR促使模型更好地利用这些信息丰富的表征。实验表明,RR在多个基准测试中持续提升了LRMs的推理性能。例如,在AIME24数据集上,它相对地将DeepSeek - R1 - Distill - LLaMA - 8B的准确率提高了20%。2)受我们对思维token分析的启发,我们提出基于思维token的测试时扩展(TTTS)。也就是说,当还有额外的token预算时,我们迫使模型从思维token开始继续推理。实验表明,与原始的LRMs相比,随着token预算的增加,TTTS带来了稳定的性能提升。这些应用进一步证明,我们的观察结果可以为提升LRMs的推理能力提供新的见解。
2. Emergence of MI Peaks in LRMs’ Reasoning Trajectories
尽管最近的大语言模型(如DeepSeek的R1系列模型和Qwen的QwQ)展现出了令人瞩目的推理能力,但其驱动这些能力的潜在机制仍未被充分理解。在本节中,我们从信息论的角度研究大语言模型的推理轨迹。我们首先介绍符号表示和预备知识(第2.1节)。在第2.2节中,我们展示互信息峰值现象。然后在第2.3节中,我们对这一现象给出理论上的见解。最后,在第2.4节中,我们检验在大语言模型相应的非推理大语言模型中是否出现类似的模式。
2.1 Preliminaries
在语言推理模型(LRM)的生成过程中提取表示。给定一个数据样本s=(x,y)s = (x, y)s=(x,y),其中xxx为输入查询,yyy为对应的标准答案。对于语言模型MMM,当输入提示为xxx时,其会自回归生成y^={y^1,y^2,…,y^T}\hat{y} = \{\hat{y}_1, \hat{y}_2, \dots, \hat{y}_T\}y^={y^1,y^2,…,y^T},其中TTT为token的总数,y^t\hat{y}_ty^t表示第ttt步生成的token。为分析动态生成过程,我们收集每个生成token对应的隐藏表示。设Ail(⋅)A^l_i(\cdot)Ail(⋅)表示给定输入时,提取语言模型第lll层第iii个token表示的函数。为简化表述,省略AAA的上标和下标。此时,第ttt个生成token对应的表示记为ht=A(M(x,y^<t))h_t = A(M(x, \hat{y}_{<t}))ht=A(M(x,y^<t)),其中y^<t\hat{y}_{<t}y^<t表示y^\hat{y}y^中第ttt个token之前的子序列。类似地,我们也通过将yyy输入语言模型来提取标准答案的表示,例如hy=A(M(y))h_y = A(M(y))hy=A(M(y))。
估计每个生成token与标准答案之间的互信息。在提取表示后,我们进一步度量每个生成token的表示 hth_tht 与标准答案的表示 hyh_yhy 之间的互信息,得到一个互信息序列:I[h1;hy]I[h_1; h_y]I[h1;hy]、I[h2;hy]I[h_2; h_y]I[h2;hy]、…、I[hT;hy]I[h_T; h_y]I[hT;hy]。通过这种方式,我们观察互信息的演化过程,从而分析大语言模型(LLM)生成过程中的推理动态。具体而言,我们遵循文献[29, 35, 12]的方法,使用希尔伯特-施密特独立性准则(HSIC)[17]来估计互信息[24, 32]。HSIC的形式化定义见定义4,更多实现细节可参考附录B。
定义1(希尔伯特-施密特独立性准则(HSIC)[17])。HSIC是再生核希尔伯特空间(RKHS)中分布之间交叉协方差算子的希尔伯特-施密特范数。形式上: HSIC(X,Y)=EXYX′Y′[kX(X,X′)kY(Y,Y′)]+EXX′[kX(X,X′)]EYY′[kY(Y,Y′)]−2EXY[EX′[kX(X,X′)]EY′[kY(Y,Y′)]],\begin{aligned} \operatorname{HSIC}(X, Y) &= \mathbb{E}_{XYX'Y'}\left[k_X(X, X')k_Y(Y, Y')\right] + \mathbb{E}_{XX'}\left[k_X(X, X')\right]\mathbb{E}_{YY'}\left[k_Y(Y, Y')\right] \\ & \quad - 2\mathbb{E}_{XY}\left[\mathbb{E}_{X'}\left[k_X(X, X')\right]\mathbb{E}_{Y'}\left[k_Y(Y, Y')\right]\right], \end{aligned}HSIC(X,Y)=EXYX′Y′[kX(X,X′)kY(Y,Y′)]+EXX′[kX(X,X′)]EYY′[kY(Y,Y′)]−2EXY[EX′[kX(X,X′)]EY′[kY(Y,Y′)]],
其中X′X'X′、Y′Y'Y′分别是XXX、YYY的独立副本,kXk_XkX、kYk_YkY为核函数。
2.2 Investigating LRM’s Reasoning Trajectories with MI
在本小节中,我们遵循2.1节中的流程,追踪每一步表示与标准答案之间的互信息(MI)如何演变。具体而言,我们在几个不同规模的流行语言推理模型(LRMs)上进行了实验,包括DeepSeek-R1-Distill系列[18]和QwQ-32B[42]。我们使用了MATH数据集[19]的训练拆分,该数据集包含12,000道竞赛级数学问题,每道题都附有详细的分步解答。
在语言推理模型(LRMs)的推理过程中,某些步骤会出现互信息(MI)的突然且显著增长。图2展示了一个数据样本在LRMs生成过程中的互信息演化轨迹 。令人惊讶的是,在所有测试的LRMs中,我们观察到一个一致的模式:尽管大多数步骤随着推理的进行呈现出相对较低且稳定的互信息值,但某些步骤的互信息会突然且显著增加。我们将这些互信息突然增加的步骤称为MI峰值。形式上,我们对MI峰值的定义如下:
定义2(互信息峰值)。给定一个互信息序列{mt}t=1T\{m_t\}_{t=1}^{T}{mt}t=1T,设Q_1和Q_3分别表示该序列的第25百分位数(下四分位数)和第75百分位数(上四分位数)。我们将IQR(m)=Q3−Q1IQR(m) = Q_3 - Q_1IQR(m)=Q3−Q1定义为四分位距。据此,我们将互信息峰值的集合识别为: O={t:mt>Q3+τ⋅IQR(m)},\mathcal{O} = \{ t: m_t > Q_3 + \tau \cdot IQR(m) \},O={t:mt>Q3+τ⋅IQR(m)}, 其中τ\tauτ为比例因子。根据经验,我们将τ\tauτ设为1.5[44]。
互信息峰值(MI peaks)在整个推理过程中呈现稀疏且非均匀分布的特征。如表1所示,语言推理模型(LRMs)推理过程中的互信息峰值出现频率极低,占所有推理步骤的比例不超过5%。值得注意的是,DeepSeek-R1-Distill-Qwen-7B模型的互信息峰值比例仅为0.51%。尽管数量稀疏,但如图2所示,这些峰值散落在整个推理轨迹中。此外,表1的间隔统计结果表明,互信息峰值的出现并非遵循均匀间隔。这种稀疏且非均匀的分布模式暗示,互信息峰值可能在推理过程的关键节点上伺机出现。
2.3 Theoretical Insights: Higher MI Leads to Tighter Bounds on Prediction Error
在2.2节中,我们的实证研究揭示了语言推理模型(LRMs)推理轨迹中互信息峰值(MI peaks)的出现,这表明某些表示编码了关于标准答案的大量丰富信息。这就引出了一个自然的问题:这种模式是否可能与LRM的推理性能相关?在本小节中,我们为这个问题提供了理论见解,表明表示与标准答案之间更高的互信息会对模型的预测误差产生更紧的上下界。
定理1. 考虑大型语言模型(LLM)推理过程中的表示序列h1,h2,…,hTh_1, h_2, \dots, h_Th1,h2,…,hT,其中TTT为总推理步数。设yyy和y^\hat{y}y^分别表示标准答案和LLM的预测答案,定义pe=Pr(y^≠y)p_e = \Pr(\hat{y} \neq y)pe=Pr(y^=y)为模型的预测错误概率。则以下不等式成立:
pe≥1log(∣Y∣−1)[H(y)−∑j=1TI(y;hj∣h<j)−Hb(pe)]p_e \geq \frac{1}{\log(|\mathcal{Y}| - 1)}\left[ H(y) - \sum_{j=1}^{T} I(y ; h_j | h_{<j}) - H_b(p_e) \right] pe≥log(∣Y∣−1)1[H(y)−j=1∑TI(y;hj∣h<j)−Hb(pe)]
其中:
- ∣Y∣|\mathcal{Y}|∣Y∣表示答案空间的大小;
- H(y)H(y)H(y)为标准答案yyy的信息熵;
- I(y;hj∣h<j)I(y ; h_j | h_{<j})I(y;hj∣h<j)表示在已知先前表示h<jh_{<j}h<j的条件下,yyy与第jjj步表示hjh_jhj的条件互信息;
- Hb(pe)=−pelogpe−(1−pe)log(1−pe)H_b(p_e) = -p_e\log p_e - (1-p_e)\log(1-p_e)Hb(pe)=−pelogpe−(1−pe)log(1−pe)为二元熵函数。
其中∣Y∣|Y|∣Y∣表示随机变量yyy的支撑集大小(即yyy所有可能取值的数量),而Hb(pe)H_b(p_e)Hb(pe)表示pep_epe的二元熵,其定义为:
Hb(pe)=−pelogpe−(1−pe)log(1−pe)H_b(p_e) = -p_e \log p_e - (1-p_e) \log(1-p_e)Hb(pe)=−pelogpe−(1−pe)log(1−pe)
remark1. 定理1为大型语言模型(LLM)的预测错误概率pep_epe建立了下界。直观来看,这表明若LLM想要实现低错误率,其生成过程中的内部表示序列需捕捉更多关于标准答案的信息。换句话说,整个生成轨迹中更高的互信息(MI)可能有助于降低模型的最小可达错误率。
定理2. 遵循定理1的设定,以下不等式成立:
pe≤12[H(y)−∑j=1TI(y;hj∣h<j)].p_e \leq \frac{1}{2}\left[ H(y) - \sum_{j=1}^{T} I(y; h_j | h_{<j}) \right].pe≤21[H(y)−j=1∑TI(y;hj∣h<j)].
remark2. 定理2为预测错误概率pep_epe提供了上界,这与定理1中的下界形成了互补。该定理表明,表示序列与标准答案之间的累积互信息(MI)越高,大型语言模型(LLM)错误概率的上界就越紧。
remark3. 综上所述,定理1和定理2共同表明,推理过程中表示与标准答案之间的累积互信息(MI)越高,模型错误概率的上下界就越紧。换句话说,模型更有可能得出正确答案。值得注意的是,互信息峰值(MI peaks)的存在能有效增加这种累积互信息,从而可能帮助大语言模型(LLMs)进行更准确的推理。
2.4 Will Non-reasoning LLMs also Exhibit the MI Peaks Phenomenon?
由于互信息峰值(MI Peaks)现象在语言推理模型(LRMs)中普遍存在,那么非推理型大语言模型(即未针对复杂推理专门增强的基础大模型,如Llama-3.18B[16])是否也会表现出类似行为?为探究这一问题,我们选取了DeepSeek-R1-Distill系列模型对应的非推理型版本,并遵循2.1节所述流程开展实验。
metrics。 为便于从推理过程中互信息序列{mt}t=1T\{m_t\}_{t=1}^T{mt}t=1T的性质出发,对语言推理模型(LRMs)及其对应基础模型进行定量比较,我们采用以下指标:(1)均值(Mean):mˉ=1T∑i=1Tmi\bar{m} = \frac{1}{T}\sum_{i=1}^T m_imˉ=T1∑i=1Tmi;(2)标准差(Std):σm=1T∑i=1T(mi−mˉ)2\sigma_m = \sqrt{\frac{1}{T}\sum_{i=1}^T (m_i - \bar{m})^2}σm=T1∑i=1T(mi−mˉ)2;(3)峰值异常度(AOM):AOM=1∣O∣∑i∈O∣mi−median(m)∣IQR(m)AOM = \frac{1}{|O|}\sum_{i \in O} \frac{|m_i - \text{median}(m)|}{\text{IQR}(m)}AOM=∣O∣1∑i∈OIQR(m)∣mi−median(m)∣,其中OOO为定义2中所定义的互信息峰值集合,median(m)\text{median}(m)median(m)为序列{mt}t=1T\{m_t\}_{t=1}^T{mt}t=1T的中位数。具体而言,均值反映互信息的整体大小,而标准差和峰值异常度则刻画互信息的波动程度。
与语言推理模型(LRMs)相比,非推理型大语言模型(LLMs)的互信息峰值(MI peaks)更弱且更不显著。如图3所示,尽管非推理型LLMs在推理过程中某些步骤的互信息相比平均值确实有所提升,但这种提升通常较为温和,缺乏其LRM对应模型中观察到的急剧峰值。从定量角度来看,表2中报告的标准差(Std)和峰值异常度(AOM)指标进一步支持了这一观察结果,这些指标一致表明非推理型LLMs的互信息波动和峰值强度更低。这些发现表明,互信息峰值模式可能源于经过复杂推理增强训练的过程。
在推理过程中,非推理型大语言模型(LLMs)的整体互信息(MI)低于其对应的语言推理模型(LRMs)。 图3和表2中的均值(Mean)指标分别从直观和定量角度验证了这一观察结果。这表明,经过推理强化训练后,LRMs似乎从根本上在每个生成步骤的表示中编码了更多与正确推理相关的信息。此外,LRMs中互信息峰值(MI peaks)的存在可能有助于提升整个推理轨迹的整体互信息。这些观察结果为2.3节中提出的理论见解提供了部分实证支持,即表示与标准答案之间更高的互信息与生成正确响应的可能性更大相关。
3. Thinking Tokens are Information Peaks in LLM Reasoning
在第2节中,我们发现了语言推理模型(LRMs)推理轨迹中的一个独特现象:互信息峰值(MI peaks)的出现。随之而来的一个自然问题是:这些互信息峰值对应的表示中编码了哪些语义信息?在本节中,我们将从token(token)层面探讨这一问题。具体而言,在3.1节中,我们将互信息峰值处的表示投影到token空间,分析相应token的特征。然后在3.2节中,我们设计实验评估这些token的功能作用,结果表明它们对LRM的推理性能至关重要,而其他token的影响微乎其微。
3.1 Exploring MI Peak Representations in Token Space
将表示投影到token空间。为解释互信息峰值处表示的语义,我们利用大语言模型的输出头[46,54,14]将这些特定表示解码到token空间。具体来说,对于表示hth_tht,我们首先计算对应的token概率分布,然后采用贪心解码策略提取概率最高的token: pt=Softmax(Woutht+b),z^t=arg maxi∈{1,…,V}[pt]i,p_t = \text{Softmax}(W_{\text{out}}h_t + b), \quad \hat{z}_t = \underset{i \in \{1, \dots, V\}}{\text{arg max}} [p_t]_i,pt=Softmax(Woutht+b),z^t=i∈{1,…,V}arg max[pt]i, 其中Wout∈RV×dW_{\text{out}} \in \mathbb{R}^{V \times d}Wout∈RV×d是输出投影矩阵,b∈RVb \in \mathbb{R}^Vb∈RV是偏置向量,VVV为词表大小。我们对评估数据集中所有互信息峰值处的表示应用上述解码流程,通过分析这些解码token的经验分布,揭示哪些类型的语义token倾向于对应高互信息表示。具体而言,实验使用的模型和数据集与2.1节一致。
对于每个模型,我们将数据集中所有互信息峰值(MI peaks)处的解码token进行聚合,然后计算其频率分布以作进一步分析。
在语言推理模型(LRM)的互信息峰值(MI peaks)处出现的token(tokens)大多是表示自我反思或推理过程过渡的连接词。 在图4中,我们展示了DeepSeek-R1-Distill-LLaMA-8B、DeepSeek-R1-Distill-Qwen-14B和QwQ2模型在互信息峰值处解码出的前30个token。有趣的是,我们观察到LRM中互信息峰值对应的token主要是逻辑token和反思性表达,例如“So”“Hmm”和“Wait”,这些token通常与停顿、思考或内部 deliberation(审慎思考)相关。直观来看,像“Hmm”和“Wait”这样的token常常促使模型进行自我反思、考虑其他推理路径等。例如,我们随机提取LRM在出现这些token时的响应,观察到后续表述如:“Wait, let me think differently. Let’s denote…”(“等等,让我换个思路。我们设……”)、“Hmm, so I must have made a mistake somewhere. Let me double-check my calculations. First, …”(“嗯,所以我肯定哪里出错了。让我再检查一下计算。首先……”)。这种行为与先前研究一致,表明此类token可促使模型执行多步推理并提高答案准确性[18]。更多讨论见附录C。
3.2 Tokens at MI Peaks are Critical to LRM’s Reasoning Performance
在这里,我们将3.1节中解码出的高互信息token称为“思维token”。这些思维token似乎发挥着双重作用:(i)在语言层面,它们充当话语提示,促使模型进行思考或反思;(ii)在隐藏空间中,其对应的表示与标准答案具有高互信息。 因此,我们假设这些思维token可能对模型的最终推理结果至关重要。在本小节中,我们通过实验来验证这一假设。
抑制思维token的生成会显著损害语言推理模型(LRMs)的推理性能,而抑制其他token的影响则微乎其微。 为探究互信息峰值(MI peaks)处识别出的思维token的作用,我们开展了对照干预实验。具体而言,在LRMs的推理过程中,我们通过将一定数量思维token的生成概率设为零来抑制其生成;作为对比,随机抑制相同数量的非思维token。通过这种方式,我们在多个数学推理基准上评估了模型在不同抑制token数量下的性能。如图5所示,抑制思维token会导致模型推理性能显著下降,而抑制非思维token几乎没有影响(更多讨论见附录C)。这表明思维token确实在LRMs的推理能力中扮演关键角色,为我们之前的假设提供了实证支持。
4. Applications: Leveraging MI Peaks to Improve LRM Reasoning
基于之前的分析所得洞见,我们提出两种简单且有效的技术以提升语言推理模型(LRMs)的推理性能。在4.1节中,我们介绍一种重复利用互信息峰值(MI peaks)处内部表示的方法,使模型能够进一步挖掘潜在空间中的信息。在4.2节中,我们将思维token(thinking tokens)融入测试时的规模调整场景,以提高模型的推理准确性。
4.1 Recycling High-MI Representations During Inference
第2.2节分析的互信息峰值(MI Peaks)现象表明,语言推理模型(LRMs)推理过程中的某些表示可能编码了对推理特别有用的语义信息。受此启发,我们提出了一种名为表示循环利用(Representation Recycling, RR)的简单技术。直观地说,RR将互信息峰值处的表示反馈回模型,从而使模型能够更充分地处理和利用这些表示。
method。回想一下,大型语言模型(LLM)的每一层通常由一个Transformer块[45]组成。给定一个输入,LLM各层的前向计算流程如下:
hℓ=TFℓ(hℓ−1),ℓ=1,…,Lh^\ell = \text{TF}^\ell(h^{\ell-1}),\quad \ell = 1,\dots,L hℓ=TFℓ(hℓ−1),ℓ=1,…,L 其中hℓh^\ellhℓ是第ℓ\ellℓ个Transformer块TFℓ(⋅)\text{TF}^\ell(\cdot)TFℓ(⋅)的输出表示,LLL为总层数。为了促进对第ℓ∗\ell^*ℓ∗层中潜在重要表示hℓ∗h^{\ell^*}hℓ∗的深度处理,我们通过将其再次反馈到同一层来修改前向计算过程:
h′ℓ∗=TFℓ∗(hℓ∗)h'^{\ell^*} = \text{TF}^{\ell^*}(h^{\ell^*}) h′ℓ∗=TFℓ∗(hℓ∗)
而非直接传递给下一层。对于ℓ>ℓ∗\ell > \ell^*ℓ>ℓ∗的层,前向传播按常规进行:h′ℓ=TFℓ(h′ℓ−1)h'^\ell = \text{TF}^\ell(h'^{\ell-1})h′ℓ=TFℓ(h′ℓ−1)。通过这种“循环利用”操作,模型能够重新处理高互信息(MI)表示,以进一步提取关键推理特征。
实验设置。为评估表示循环利用(RR)技术的有效性,我们使用DeepSeek-R1Distill-Llama-8B和DeepSeek-R1-Distill-Qwen7B模型,在三个数学推理基准上开展实验。由于推理过程中无法获取标准答案,我们首先利用MATH数据集的训练集记录思维token(如3.1节所述),然后在模型生成任意一个此类思维token时触发RR机制。根据经验,我们将 ℓ∗\ell^{*}ℓ∗ 设置为大语言模型的中层或高层,因为先前研究表明这些层往往编码更丰富的语义内容[5, 59, 35]。
Result 如图6所示,表示循环利用(RR)技术在所有基准测试中均持续提升了语言推理模型(LRMs)的推理性能。特别是在由具有挑战性的竞赛级问题组成的AIME24数据集上,RR带来了显著的性能提升。这表明,循环利用互信息峰值(MI-peak)处的表示可帮助LRMs进一步释放和利用其内在的推理潜力,从而实现更优的推理表现。
4.2 Test-Time Scaling with Thinking Tokens
随着大语言模型(LLMs)训练阶段规模法则的收益递减,测试时规模调整正成为提升语言推理模型(LRMs)推理性能的日益重要的范式[12, 38, 50]。先前研究表明,随着推理时分配更多计算资源,LLMs的推理性能可持续提升[21]。受前期工作[30]启发,我们提出一种简单而有效的策略,称为基于思维token的测试时规模调整(Thinking Token based Test-time Scaling, TTTS)。
Method。基于3.1节中识别的思维token集合,我们过滤掉语义内容较少的token(如标点符号和单个字符,更多细节见附录B),保留“所以(So)”“嗯(Hmm)”等常表示反思、过渡或进一步思考的token。然后在推理过程中,我们将其中一个思维token附加到模型初始输出的末尾,使其能够继续生成额外的推理步骤。
Experimental setup。我们在GSM8K、MATH500和AIME24数据集上使用LLaMA-8B模型评估基于思维token的测试时规模调整(TTTS)策略。具体而言,我们采用受控的测试时规模调整设置:给定一个具有初始token预算的语言推理模型(LRM),我们逐步增加token生成预算,并比较使用和不使用TTTS时模型的推理性能。
Result。如图7所示,在相同的token预算下,TTTS在GSM8K和MATH500上的表现均持续优于原始LRM。值得注意的是,在GSM8K上,当token预算超过1024时,原始LRM的性能趋于稳定,而TTTS随着token预算的增加仍持续提升性能。在难度更高的AIME24基准测试中,我们观察到,当token预算达到约3000时,原始模型的性能趋于饱和。相比之下,尽管TTTS在某些中间token预算下表现略逊,但随着预算超过6144token,其性能持续稳步提升并最终超越原始模型。这些结果表明,随着推理时资源的增加,TTTS能够有效促使语言推理模型(LRMs)进行更深入的思考,并稳定提升其推理性能。
5. Related work
大语言模型中的信息论。 信息论[10]为分析语言模型的行为提供了宝贵的理论基础[22,11,31],其应用涵盖多个领域:通过量化无监督信息增益诊断推理过程[43]、利用信息瓶颈蒸馏优化模型[7]、通过捕捉依赖规律[8]和误差传播动态[12]进行系统性的行为分析。最近的扩展研究通过反向瓶颈度量形式化了合成数据生成[13],展示了信息论在连接理论洞见与工程实践方面的多功能性。Ren和Liu[36]表明,Transformer在近似目标分布时表现出对低熵表示的归纳偏置。
Critical Tokens in LLMs. 大语言模型中的关键token。先前研究表明,少量“关键token”能对大语言模型的行为产生不成比例的影响,这促使相关方法去识别这些token[28]、量化其影响[15,2],并通过选择性训练或剪枝来减轻其作用[27,40]。近期在大语言模型安全对齐领域的进展,愈发关注潜在关键token的核心作用。邹等人[60]提出一种构造通用对抗后缀的方法,可诱导已对齐的大语言模型生成不当内容。林等人[26]发现,在对齐后,模型会学习“抱歉”“然而”“道歉”等token来避免生成有害输出。齐等人[33]指出,仅通过强制未对齐的大语言模型以特定安全token开头响应,就能显著提升模型的安全性。
6. Conclusion
在这项工作中,我们从信息论视角系统研究了语言推理模型(LRMs)的推理机制。通过追踪中间表示与标准答案之间的互信息(MI)演化,我们揭示了一个有趣的互信息峰值现象。进一步研究发现,这些互信息峰值主要对应于表达自我反思、逻辑过渡或自我修正的思维token(如“Hmm”“Wait”“Therefore”)。从理论上,我们证明了更高的累积互信息与更严格的模型误差边界相关,为互信息峰值现象提供了理论解释。基于这些分析,我们提出了两种无需训练的简单方法——表示循环利用(RR)和基于思维token的测试时规模调整(TTTS),可有效提升语言推理模型的推理性能。我们希望该研究能为理解语言推理模型推理的内部结构提供新视角,并为推理阶段的推理能力增强开辟新方向。