大语言模型的链式思维推理:从理论到实践
大语言模型的链式思维推理:从理论到实践
概述:
大语言模型推理的高层次概述,重点关注动机、核心思想和当前局限性。无需任何背景知识。
演讲者简介:
Denny Zhou创立了Google Brain的推理团队,现隶属于Google DeepMind。他的团队以开创链式思维提示和自一致性方法而闻名,并为上下文学习和链式思维推理建立了数学基础。该团队还创造了支撑Gemini推理能力的核心技术。Denny共同创立了语言建模会议(COLM),并担任COLM 2024的大会主席。
大语言模型在各种任务中展现出了卓越的能力,但其中最引人注目的或许是它们进行逐步推理的能力。在最近的斯坦福CS25课程中,Google DeepMind的Denny Zhou全面介绍了大语言模型中的推理机制,挑战了一些常见假设,并揭示了这些能力背后的数学基础。
定义大语言模型语境下的推理
Zhou首先回应了AI社区中一个引发广泛讨论的根本问题:大语言模型真的能推理吗?他没有陷入哲学争论,而是提出了一个具体的操作性定义:大语言模型推理是指在输入和输出之间生成的中间token —— 即得出最终答案前的逐步思考过程。
这个定义避开了关于意识或类人认知的抽象辩论,专注于可观察的计算行为。当模型生成"'artificial'的最后一个字母是'l','intelligence'的最后一个字母是'e',所以拼接起来是'le'"时,这些中间步骤在此框架下就构成了推理。
理论基础:为什么中间步骤如此重要
研究中间推理token的动机不仅仅是经验性的,它有坚实的理论支撑。Zhou展示了他与斯坦福大学马腾宇教授合作得出的一个重要结果:
对于任何可被大小为T的布尔电路求解的问题,固定大小的transformer可以通过生成O(T)个中间token来解决它。
这个定理揭示了为什么推理token在计算上是必不可少的。如果没有中间步骤,解决复杂问题将需要巨大的模型深度,或者根本无法解决。中间token有效地充当了"草稿纸"空间,让模型能够将复杂计算分解为可管理的顺序步骤。
根本性误解:预训练模型已经具备推理能力
Zhou挑战了该领域的一个广泛观念:预训练模型在没有额外技术(如链式思维提示或微调)的情况下无法进行推理。他通过一个简单的算术问题证明了这种误解:
"我有三个苹果。我爸爸比我多两个苹果。我们总共有多少个苹果?"
使用贪婪解码,大多数预训练模型会错误地回答"5个苹果"。然而,通过检查第二、第三和第四个最可能的首个token(而不仅仅是最可能的),模型生成了正确的推理路径:
- 第二候选:"我有三个苹果,我爸爸比我多两个,所以他有五个苹果。三加五等于八。"
- 第三候选:"我们总共有八个苹果。"
- 第四候选:"你有三个苹果..."[接着是正确的推理]
这揭示了一个关键洞察:推理路径已经存在于模型的输出空间中。挑战不在于生成推理,而在于从众多可能性中选择正确的推理路径。
链式思维提示:重塑输出分布
链式思维提示通过提供逐步推理的示例来工作,这会重塑模型的输出分布,使推理丰富的回答更可能出现。它不需要模型学习新能力,只是让现有的推理路径在贪婪解码时更可能被选择。
然而,Zhou指出了传统提示方法的局限性:
- Few-shot COT:需要特定任务的示例,如果你已经知道如何解决类似问题,这似乎违反直觉
- Zero-shot COT("让我们一步步思考"):通用但表现明显不如few-shot方法
从监督微调到强化学习微调的演进
在人工标注的推理步骤上进行监督微调(SFT)最初看起来很有前景,但泛化能力很差。关键洞察是认识到人工生成的解决方案对于训练来说不一定是最优的。这导致了自我改进方法的发展:
STAR(增强推理的自我训练)
模型不使用人工标注,而是生成自己的逐步解决方案。正确的解决方案(通过已知答案验证)被保留用于训练,错误的则被丢弃。这种方法后来演化成我们现在称为RL微调的技术,被证明优于人工标注的训练数据。
核心原则:优化你想要的
Zhou强调了一个在大语言模型研究中经常被忽视的基本机器学习原则:直接优化你关心的指标。对于推理任务,这意味着:
- 定义一个衡量回答质量的奖励函数R
- 计算期望奖励的梯度
- 由于大语言模型的概率性质,使用采样来估计梯度
这个数学框架是所有RL微调方法的基础,无论使用的具体算法(PPO、REINFORCE等)如何。
推理的扩展定律
Zhou研究中一个反直觉的发现是,对于RL微调,扩展链式思维推理的长度可能比扩展模型大小更重要。理论结果表明,通过足够长的推理链,即使是固定大小的transformer也能解决几乎任何可计算的问题。
这对我们如何思考模型扩展有深远影响。我们可能不需要总是构建更大的模型,而是通过启用更长的推理序列来获得更好的性能。
超越贪婪解码:聚合原则
Zhou识别出大语言模型生成推理中的一个根本不匹配:
- 贪婪解码优化:argmax P(整个序列 | 问题)
- 我们想要的:argmax P(答案 | 问题)
这种不匹配发生是因为贪婪解码最大化整个推理序列的概率,而不仅仅是最终答案。解决方案涉及边际化——对所有可能的推理路径求和以找到最可能的答案。
自一致性:实用的边际化
自一致性通过以下方式实现这一原则:
- 从模型中采样多个推理路径
- 从每个路径中提取最终答案
- 选择出现频率最高的答案
这种方法产生了显著的改进。在GSM8K基准测试中,自一致性将准确率从58%提高到75%——相对改进近50%。即使是像OpenAI的O1这样的现代模型也从聚合技术中显示出显著收益。
自然校准
自一致性提供了额外的好处:更高的一致性与更高的准确性相关。当样本间的一致性超过80%时,准确性接近100%,提供了自然的置信度度量。
检索增强推理
Zhou通过展示推理和检索是互补而非竞争的方法来回应推理与检索的辩论。他展示了提示模型在解决新问题前"回忆相关问题"会显著改善性能的例子。
关键洞察是有效的推理通常需要访问相关知识或类似的问题模式。这一原则支撑了像RAG(检索增强生成)这样的现代方法,并解释了为什么即使在大语言模型时代,搜索仍然有价值。
当前局限性和未来方向
Zhou承认RL微调虽然强大,但面临重大约束:
- 验证要求:成功依赖于有可靠的验证器来区分正确和错误的解决方案
- 限于可验证任务:许多现实世界问题没有明确的对错答案
- 超越唯一答案:创意写作、开放式编码和设计任务仍然具有挑战性
该领域需要在处理没有唯一、自动可验证答案的任务方面取得突破——这占现实世界应用的大部分。
实践意义
Zhou的分析为从业者提供了几个可操作的洞察:
- 推理胜过无推理:总是优先选择显示其工作过程的模型
- RL微调优于SFT:可能时,直接针对目标指标进行优化
- 聚合提高准确性:当质量比速度更重要时,采样多个回答
- 结合检索与推理:使用外部知识增强问题解决
简单性原则
Zhou以理查德·费曼的一句话结束:"真理总是比你想象的更简单。"这一原则贯穿整个讲座——大语言模型中的有效推理源于相对简单的数学原理,而非复杂的架构创新。
大语言模型推理的力量不需要神秘的涌现特性或类人意识。相反,它源于理解良好的概念:条件概率、边际化和目标指标的直接优化。
展望未来
随着该领域继续快速发展,Zhou的框架为理解和改进推理能力提供了坚实的基础。从专注于基准测试的研究转向现实世界应用可能需要解决当前方法的局限性,特别是对于那些难以自动验证的任务。
Zhou提出的数学基础表明,大语言模型推理的持续进步将不是来自更复杂的算法,而是来自对基本原理的更好理解和应用。正如他所指出的,真理往往比我们最初想象的更简单——这种简单性可能是解锁人工智能中更强大和通用推理能力的关键。
原始视频:https://youtu.be/ebnX5Ur1hBk?si=FLyFkV8ovRVW07I9
中英文字幕:
大语言模型的链式思维推理:从理论到实践