当前位置: 首页 > news >正文

Atom of Thoughts for Markov LLM Test-Time Scaling论文解读

近年来,大型语言模型在训练规模的扩展上取得了显著的性能提升。然而,随着模型规模和数据量的增长遇到瓶颈,测试时扩展(test-time scaling)成为进一步提升模型能力的新方向。传统的推理方法,如思维链(Chain of Thought, CoT)和思维树(Tree of Thought, ToT),在推理过程中过度依赖完整的历史信息,导致计算资源浪费,并可能干扰有效的推理。

AoT 的核心思想

AoT 的核心思想是将复杂的推理过程视为一系列独立且可验证的子问题,这些子问题主要依赖于当前状态,而非累积的历史信息,类似于马尔可夫过程中的无记忆性转移。在 AoT 中,每个推理状态的转移包括将当前问题分解为基于依赖关系的有向无环图,然后收缩其子问题,形成新的原子问题状态。这一迭代的分解-收缩过程持续进行,直到得到直接可解的原子问题,自然地实现了问题状态之间的马尔可夫转移。此外,这些原子问题可以无缝地集成到现有的测试时扩展方法中,使 AoT 能够作为插件增强推理能力。
在这里插入图片描述

AoT 的推理过程

AoT 的推理过程由两个核心步骤组成:拆解(Decomposition)和收缩(Contraction)。在拆解阶段,AoT 将当前问题分解为一个基于依赖关系的临时有向无环图(DAG),其中节点代表子问题,边表示它们之间的依赖关系。在收缩阶段,DAG 中无入边的节点被定义为独立子问题,其信息被转化为已知条件;有入边的节点被定义为依赖子问题,其描述被整合为一个更简洁的独立问题,形成新的原子状态。这一过程不断迭代,直到达到最大次数限制,以避免无限循环。

在这里插入图片描述

在这里插入图片描述

AoT 的优势

AoT 的设计具有两个关键优势。首先,AoT 消除了在扩展计算资源时维护和计算历史信息的需求。其次,这些原子问题可以无缝地集成到现有的测试时扩展框架中,允许 AoT 作为独立框架或插件增强,以提高整体推理能力。在六个基准上的实验表明,AoT 作为独立框架和插件增强都具有有效性。值得注意的是,在 HotpotQA 数据集上,当应用于 gpt-4o-mini 时,AoT 达到了 80.6% 的 F1 分数,分别超过 o3-mini 和 DeepSeek-R1 3.4% 和 10.6%。

相关文章:

  • 凸集和凸函数
  • Google C++编码规范指南(含pdf)
  • python主成分分析法1
  • MyBatis 配置文件解析使用了哪些设计模式
  • 在 Dojo 框架中define、declare 和 require的区别
  • 【自用】NLP算法面经(5)
  • 美摄接入DeepSeek等大模型,用多模态融合重构视频创作新边界!
  • 从零开发数据可视化
  • node-ddk,electron 组件, 系统基上下文菜单(右键菜单)
  • qt 图像后处理的软件一
  • spring boot3 验证码工具kaptcha使用
  • vue 自制列表,循环滚动
  • python本地连接minio
  • Python:单继承方法的重写
  • (十六) 60s搞懂 : Zookeeper 的详细安装,使用及注意事项
  • Linux多核调度:解锁CPU潜能的密码
  • 环境变量设置异常导致UOS文件管理器无法正常运行
  • 【MySQL数据库】多表查询(笛卡尔积现象,联合查询、内连接、左外连接、右外连接、子查询)-通过练习快速掌握法
  • 计算机网络基础:展望未来网络发展趋势
  • LangChain组件Tools/Toolkits详解(4)——处理ToolException
  • 日本一季度实际GDP环比下降0.2%
  • 江西3人拟提名为县(市、区)长候选人
  • 俄方代表团抵达土耳其,俄乌直接谈判有望于当地时间上午重启
  • 奥古斯都时代的历史学家李维
  • 人民日报:从“轻微免罚”看涉企执法方式转变
  • 特朗普访问卡塔尔,两国签署多项合作协议