当前位置：首页 > news >正文

强化学习之父 Richard Sutton :大模型是死路一条

news 2025/10/11 7:24:08

一句话简介：

在科技界为ChatGPT、Sora等大模型所掀起的浪潮欢呼雀跃时，一位始终站在人工智能研究金字塔顶端的先驱，却冷静地拉响了警报。他认为，这场看似不可阻挡的技术洪流，或许正将我们引向一条充满幻觉的“死路”。他，就是强化学习（Reinforcement Learning）的奠基人、2023年图灵奖得主——理查德·萨顿。在一场极具启发性的深度对话中，萨顿系统性地阐述了他的忧思与洞见：当前以大语言模型为代表的生成式AI，因其内在的哲学缺陷，终将触及天花板；而真正通往通用人工智能的道路，必须回归智能的本源——从“经验”中学习。

一、巨擘发声：为何他的警告值得全世界侧耳倾听？

在人工智能领域，理查德·萨顿是一位绕不开的丰碑人物。他不仅开创了强化学习这一关键分支，更亲手奠定了其核心算法体系，如时序差分学习和策略梯度方法，这些构成了后来AlphaGo、AlphaZero等传奇AI的基石。

然而，让他“出圈”并深刻影响整个行业走向的，是其在2019年发表的短文 《惨痛的教训》 。该文通过对70年AI发展史的梳理，得出了一个石破天惊的结论：那些依赖人类知识、精心设计的“精巧”方法，长远来看，总会被那些利用巨大算力、基于简单通用原则的“暴力”方法所击败。

历史仿佛一个循环。今天，无数大模型的拥趸正引用这篇论文，为“规模扩大律”的无限潜力背书。然而，萨顿本人却在此刻站了出来，宛如一位最初的预言家，试图纠正世人的误读。他尖锐地指出：大模型并非“惨痛的教训”的真正化身，反而可能是一次历史的偏离。 这使得他的本次发言，远超一次普通的技术讨论，更像是一次正本清源的哲学宣言。

二、核心论战：两种智能范式的根本性对决

萨顿并非全盘否定大模型的现有能力，他坦诚其在语言任务上的成就“令人惊喜”。但他的批判，直指其作为“智能”范式的根本软肋，揭示了两种截然不同的发展路径。

路径A：大语言模型 —— “博闻强识的模仿者”

学习之源：来自过去式、静态的、由人类生成的海量文本数据集。这是一种“二手经验”。
核心目标：精准预测下一个令牌。这是一个内向的、自洽的、与改变世界无关的任务。
运作本质：模式匹配与高级模仿。它通过学习海量文本中的统计规律，学会如何像人一样组织语言，但它并不理解语言背后的物理现实与社会情境。它学到了符号之间的相关性，却未必掌握现实世界中的因果关系。
三大先天缺陷：
1. 目标的缺失：它没有“想要”改变外部世界的意图。没有实质性的目标，就无法定义何为“正确”的行动，也无法形成真正的价值判断体系。
2. 世界模型的空洞：它无法对现实世界的动态进行预测。它能流畅地写出“松开手，石头会下落”，但当它控制一个机械臂松开石头时，它并不会对石头真的下落这一结果产生“预期”，若石头悬浮空中，它也不会感到“惊讶”并修正其内在认知。它缺乏对世界运行机制的内在模拟。
3. 学习的割裂：它的生命被清晰地划分为“训练”与“部署”两个阶段。一旦部署，它便成为一个停滞的知识化石，无法在与用户的一次次真实互动中持续进化、自我更新。

路径B：强化学习 —— “亲历亲为的实践者”

学习之源：来自现在进行时、动态的、第一手的经验流。行动、观察、再行动，循环不息。
核心目标：最大化长期的累积奖励。这个目标直接关联于改变环境，如下赢一盘棋、安全驾驶到目的地。
运作本质：试错、预测与理解。通过在环境中不断尝试，观察行动带来的后果，从而构建起一个关于“世界如何运作”的内心模型。
智能体的四大支柱：
- 策略：面对当前状态，我该如何行动？
- 价值函数：当前局势好坏？未来收益几何？（通过TD学习动态更新）
- 感知：如何从原始信息中提炼出对当前“状态”的理解。
- 世界模型（核心）：如果我执行动作A，世界状态将如何变迁？ 这是智能体从所有感官输入中持续学习、构建出的最宝贵财富。

一个精妙的比喻：大模型像一个饱读诗书、对答如流的文科学者，他能就任何话题侃侃而谈，引经据典。而强化学习智能体则像一个在游乐场摸爬滚打的幼儿，他通过无数次摔倒、碰撞、观察，不仅学会了奔跑，更在潜意识里深刻地内化了牛顿定律。前者拥有海量的“陈述性知识”，后者则掌握了底层的“程序性知识”与“因果模型”。

三、直面现实：如何解释大模型的卓越表现？

对于大模型在数学奥林匹克竞赛、代码生成等领域展现出的“超凡智力”，萨顿给出了一个极具说服力的辨析：

“数学与编程世界，是建立在明确公理与规则之上的封闭系统；而我们所处的物理与社会世界，却是一个充满不确定性与未知的开放系统。”

在数学和编程中，问题和答案都内嵌于一个逻辑自洽的封闭框架内，目标极其明确。大模型能够从海量习题和代码中，反推出这套规则的映射关系。

然而，现实世界的挑战——无论是创业、研发新药、处理复杂的人际关系，还是应对前所未有的全球性危机——其规则往往是隐性的、动态变化的，甚至是不完整的。解决这些问题需要在行动中探索、在试错中学习、在面对‘未知的未知’时保持韧性与创造力。这种在开放世界中通过经验构建“常识”与“直觉”的能力，恰恰是当前大模型所缺失的，也是实现通用智能的关键。

四、未来启示：萨顿观点将如何重塑AI发展图景？

倘若萨顿的论断被未来验证，那么整个AI领域将面临一场深刻的范式转移与格局重塑。

1. 研究重心的迁移：

从“大数据”到“大模拟”：竞争的焦点可能从搜集更多人类数据，转向构建更高逼真度、更多样化的物理与社会仿真环境。自动驾驶仿真、机器人训练平台、虚拟世界（如“元宇宙”）的战略价值将急剧攀升。
从“模型架构师”到“环境设计师”：如何为AI设计能促进高效、安全学习的“课程”与“环境”，将成为比设计神经网络架构更为核心的竞争力。

2. 产业赛道的变革：

拥有高价值模拟环境与实时物理数据的企业（如顶尖的机器人公司、自动驾驶公司、游戏引擎开发商），可能掌握着通往下一代AI的“密钥”。
AI的应用形态将从当前的“聊天机器人”和“内容生成工具”，全面升级为“自主决策与执行代理”。能够独立完成复杂、长链条现实任务（如全自动供应链管理、自主科学发现）的AI，将成为新的竞争高地。

3. 对“惨痛的教训”的终极阐释：

萨顿澄清，大模型本质上是“大规模计算”与“巨量人类知识”的混合体，并非他所说的纯粹通用方法。他预言，未来必将诞生完全从与环境交互的经验中白手起家的学习系统。它们将更具可扩展性，性能更强大，届时将完美复现“惨痛的教训”的经典剧本：任何深度依赖人类知识结晶的路径，最终都会被纯粹依靠经验与计算的简单通用算法所颠覆和取代。