当前位置: 首页 > news >正文

为什么提升模型尺度可以提升模型的CoT能力

1. 思维链(CoT)能力的涌现性

核心发现
CoT能力在模型参数量达到临界规模(约100亿参数)后才显著显现,小模型(<10B)使用CoT反而会降低性能。这与模型其他能力的线性增长规律不同,呈现典型的涌现特性

技术解释

  • 量变到质变:当参数规模超过阈值后,模型突然获得:
    • 多步推理的工作记忆(保持中间状态能力)
    • 语义符号的精确映射(如将"翻倍"正确对应到"×2")
  • 对比数据
    模型规模CoT准确率(GSM8K)标准Prompt准确率
    1B12%15%
    10B18%20%
    100B47%23%
    540B56%25%

启示
模型规模是CoT的必要非充分条件,需配合适当的提示工程(如Few-shot示例)。


2. 错误类型分析

研究者将PaLM-62B的错误归为三类,反映不同规模模型的能力瓶颈:
在这里插入图片描述

(1) 语义理解错误(20/45)

典型case

问题:"若A比B多3倍,B有5个,求A"  
错误CoT:A = B + 3 = 8(混淆"多3倍"与"多3个")

规模改善机制
大模型通过更精细的语义消歧能力(如区分"times" vs “more than”)减少此类错误。

(2) 单步缺失(18/45)

典型case

问题:"5苹果+3梨-2苹果=?"  
错误CoT:5 + 3 = 8 → 输出8(缺失"-2苹果"步骤)

规模改善机制
大模型具有更强的程序性记忆,能完整执行多步运算。

(3) 其他错误(7/45)

包括幻觉、重复输出等,与解码策略(如beam search)相关性更高。


3. 规模扩展的收益

PaLM从62B→540B的升级带来:

  • 语义错误下降62%(通过更好的分布式表示学习)
  • 步骤缺失减少58%(源于更强的中间状态保持能力)
  • 综合准确率提升3.2倍(GSM8K数据集)

深层原因假设

  • 符号 grounding:大模型能更好关联语言符号与数学操作
  • 错误传播抑制:单步错误在更大模型中不易累积

4. 规模因素的复杂性

需注意的混淆变量:

  • 训练计算量:大模型通常训练更充分
  • 数据质量:大模型可能使用更清洗的数据
  • 架构优化:如PaLM-540B使用了Pathways新架构

反例
某些<10B的模型通过专项微调也能获得CoT能力(如Flan-T5),但泛化性较差。


总结图示

模型规模
工作记忆容量
语义消歧能力
错误恢复能力
CoT有效性
复杂任务性能突破

这项研究揭示了LLM能力增长的非线性规律,为后续模型开发提供了重要方向:

  1. 规模优先:基础模型需达百亿级参数
  2. 提示工程:Few-shot CoT是关键激活手段
  3. 专项优化:需针对语义理解/步骤完整性改进
http://www.dtcms.com/a/320862.html

相关文章:

  • 浏览器面试题及详细答案 88道(01-11)
  • WPF 表格中单元格使用下拉框显示枚举属性的一种方式
  • Ignite内部事件总线揭秘
  • SQL Server 2019搭建AlwaysOn高可用集群
  • Java学习进阶--集合体系结构
  • Redis是单线程性能还高的原因
  • SiLM92108高度集成8通道门极驱动,赋能汽车与工业电机精准控制
  • 【SpringBoot】SpringBoot配置
  • Go语言实战案例:用net/http构建一个RESTful API
  • 微信小程序功能 表单密码强度验证
  • 主播生活模拟器2|主播人生模拟器2 (Streamer Life Simulator 2)免安装中文版
  • 具身智能模型赋能工业巡检:Deepoc开发板如何重塑机器人认知边界
  • AI搜索引擎——DeepSeek崛起 || #AIcoding·八月创作之星挑战赛# || 简单版
  • 嵌入式硬件接口总结
  • 免费PDF翻译 离线自建
  • 免费PDF批量加密工具
  • 麦肯锡如何围绕AI有效地重塑业务
  • 2025产品经理接单经验分享与平台汇总
  • 腾讯云 CodeBuddy IDE:可以使用gpt5的ide
  • 如何将视频转为GIF格式,3大视频转为GIF工具
  • RAG上下文工程与提示词优化
  • 全栈:Tomcat 安装教程
  • Servlet技术详解(含Tomcat)未完
  • 论文阅读:User Behavior Simulation with Large Language Model-based Agents
  • 如何实现在多跳UDP传输场景,保证单文件和多文件完整传输的成功率?
  • 人工智能之数学基础:事件独立性
  • mysql/doris如何高效删除历史数据
  • SimpleMindMap:一个强大的Web思维导图
  • 【性能测试】-2- JMeter工具的使用
  • 文件结构树的├、└、─ 符号