当前位置: 首页 > news >正文

思维链提示:激发大语言模型推理能力的突破性方法

论文出处: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
作者: Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou
机构: Google Research, Brain Team
发表: 36th Conference on Neural Information Processing Systems (NeurIPS 2022)
arXiv: 2201.11903v6 [cs.CL]

研究背景

大语言模型虽然在许多任务上表现出色,但在需要复杂推理的任务上仍然存在困难,特别是算术、常识和符号推理。传统的提示方法往往只是简单的输入-输出对,无法有效激发模型的推理能力。

核心创新:思维链提示

什么是思维链提示?

思维链提示(Chain-of-Thought Prompting)是一种新的提示方法,通过在少样本示例中提供一系列中间推理步骤,教会大语言模型进行逐步推理。

传统提示 vs 思维链提示对比:

方法类型输入格式输出格式示例
传统提示问题 → 答案直接答案Q: Roger有5个网球,买了2罐,每罐3个,现在有多少?
A: 答案是11
思维链提示问题 → 推理过程 → 答案逐步推理 + 答案Q: Roger有5个网球,买了2罐,每罐3个,现在有多少?
A: Roger开始有5个球。2罐网球每罐3个就是6个球。5+6=11。答案是11

思维链提示的四大优势

  1. 分解复杂问题:将多步问题拆解为中间步骤,为复杂推理分配更多计算资源
  2. 提供可解释性:展示模型推理过程,便于调试和理解
  3. 广泛适用性:适用于任何人类可以通过语言解决的推理任务
  4. 零额外训练:仅需要在提示中提供示例,无需模型微调

实验验证

算术推理实验

研究团队在五个数学应用题数据集上进行了测试,包括GSM8K、SVAMP、ASDiv、AQuA和MAWPS。

主要发现:

  • 规模涌现性:思维链提示只在约100B参数以上的模型中显现效果
  • 复杂问题效果更佳:越复杂的问题,性能提升越显著
  • 超越微调模型:在某些任务上甚至超过了专门微调的模型

GSM8K数学应用题性能对比:

模型标准提示思维链提示性能提升
GPT-3 175B15.6%46.9%+31.3%
PaLM 540B17.9%56.9%+39.0%
Codex19.7%63.1%+43.4%

不同模型规模的表现(GSM8K):

模型系列参数量标准提示思维链提示提升幅度
GPT-3350M2.2%0.5%-1.7%
GPT-31.3B2.4%0.5%-1.9%
GPT-36.7B4.0%2.4%-1.6%
GPT-3175B15.6%46.9%+31.3%
PaLM8B4.9%4.1%-0.8%
PaLM62B9.6%29.9%+20.3%
PaLM540B17.9%56.9%+39.0%

常识推理实验

在五个常识推理数据集上的测试显示,思维链提示同样有效。

常识推理任务性能(PaLM 540B):

任务标准提示思维链提示性能提升
CSQA78.1%79.9%+1.8%
StrategyQA68.6%77.8%+9.2%
Date Understanding49.0%65.3%+16.3%
Sports Understanding80.5%95.4%+14.9%
SayCan80.8%91.7%+10.9%

符号推理实验

通过设计的两个符号推理任务验证了思维链提示的泛化能力。

符号推理任务结果(PaLM 540B):

任务测试类型标准提示思维链提示性能提升
末字母连接域内(2词)7.6%99.4%+91.8%
末字母连接域外(3词)0.2%94.8%+94.6%
末字母连接域外(4词)0.0%63.0%+63.0%
硬币翻转域内(2次)98.1%100.0%+1.9%
硬币翻转域外(3次)49.3%98.6%+49.3%
硬币翻转域外(4次)54.8%90.2%+35.4%

消融实验分析

为了验证思维链的有效性,研究团队进行了三组对照实验:

消融实验结果(LaMDA 137B在GSM8K上):

提示方法性能说明
标准提示6.5%基线
仅方程式5.4%只输出数学方程式
仅可变计算6.4%只输出等长度的点序列
答案后推理6.1%推理过程放在答案后
思维链提示14.3%完整的逐步推理

结果表明,思维链的成功不仅仅因为增加了计算量或方程式,而是因为逐步的自然语言推理过程。

稳健性验证

不同标注者的稳健性

研究团队让三个不同的标注者编写思维链提示,验证方法的稳健性。

不同标注者结果(LaMDA 137B):

数据集标注者A标注者B标注者C标准提示基线
GSM8K14.3%15.5%17.6%6.5%
SVAMP36.7%35.2%37.5%29.5%
ASDiv46.6%46.5%48.7%40.1%
MAWPS57.9%58.2%60.1%43.2%

不同示例数量的影响

示例数量对性能的影响(LaMDA 137B, GSM8K):

示例数量标准提示思维链提示性能差距
1个4.2%8.9%+4.7%
2个5.1%11.2%+6.1%
4个5.8%12.8%+7.0%
6个6.2%13.5%+7.3%
8个6.5%14.3%+7.8%

错误分析

研究团队对LaMDA 137B在GSM8K上的错误进行了详细分析:

正确答案的推理质量(50个样本):

  • 完全正确:48个(96%)
  • 巧合正确:1个(2%)
  • 轻微瑕疵但逻辑正确:1个(2%)

错误答案的错误类型(50个样本):

错误类型占比说明
计算错误8%逻辑正确但计算出错
符号映射错误16%数字符号使用错误
缺少一步22%推理链缺少关键步骤
语义理解错误54%对问题理解有误

应用场景与限制

最佳应用场景

思维链提示在以下三个条件同时满足时效果最佳:

  1. 任务具有挑战性且需要多步推理
  2. 使用大规模语言模型(100B+参数)
  3. 标准提示的性能曲线相对平坦

方法限制

  1. 模型规模依赖:只在大模型中有效,服务成本高
  2. 推理正确性无保证:可能产生看似合理但错误的推理链
  3. 标注成本:大规模应用需要大量高质量示例
  4. "真实推理"存疑:模型是否真正在推理仍是开放问题

技术影响与未来展望

对AI领域的影响

思维链提示的成功表明:

  • 标准提示只是下界:大语言模型的能力被严重低估
  • 涌现能力的重要性:某些能力只在特定规模下才显现
  • 推理能力可激发:不需要专门训练就能获得推理能力

未来研究方向

  1. 自动化思维链生成:减少人工标注成本
  2. 小模型推理能力:在更小模型中实现类似效果
  3. 推理正确性保证:提高推理链的准确性和可靠性
  4. 多模态推理:扩展到图像、视频等其他模态

结论

思维链提示是大语言模型推理能力的一个重要突破。通过简单的提示工程,就能显著提升模型在复杂推理任务上的表现,这为AI系统的实际应用开辟了新的可能性。随着模型规模的继续增长和方法的不断改进,我们有理由期待更强大、更可靠的AI推理系统。

这项研究不仅在技术上具有重要意义,更在于它揭示了大语言模型潜在能力的冰山一角,为未来的AI研究指明了新的方向。

相关文章:

  • 20250602在荣品的PRO-RK3566开发板的Android13下打开HDMI显示
  • oracle sql 语句 优化方法
  • 为什么ping显示connect:network is unreachable,如何排查网络不通问题?
  • 神经网络基础:从单个神经元到多层网络(superior哥AI系列第3期)
  • 【Doris基础】Apache Doris中的Coordinator节点作用详解
  • web架构2------(nginx多站点配置,include配置文件,日志,basic认证,ssl认证)
  • Python发送天气预报到企业微信解决方案
  • 软件测评师 第9章 基于质量特性的测试与评价 笔记
  • 论文写作核心要点
  • “application/json“,“text/plain“ 分别表示什么
  • spring-boot接入websocket教程以及常见问题解决
  • RabbitMQ深度解析:从基础实践到高阶架构设计
  • VisionPro项目记录3 —— 圆心距
  • 【Linux】权限chmod命令+Linux终端常用快捷键
  • 机器学习知识图谱——逻辑回归算法(Logistic Regression)
  • 安装 Hugo
  • 【LeetCode 题解】两数之和(C++/Python 双解法):从语法到算法的全面解析
  • 35.x64汇编写法(二)
  • dvwa4——File Inclusion
  • [Java恶补day13] 53. 最大子数组和
  • 成都哪家做网站建设比较好/软文推广发布平台
  • 重庆网站建设齐重庆零臻科技/如何自创网站
  • 天津平台公司/seo公司杭州
  • wordpress实现浮动联系/太原seo排名
  • 做网站万网/新闻发布平台
  • 北京官网建设多少钱/无锡网站优化公司