强化学习之父 Richard Sutton :大模型是死路一条
一句话简介:
在科技界为ChatGPT、Sora等大模型所掀起的浪潮欢呼雀跃时,一位始终站在人工智能研究金字塔顶端的先驱,却冷静地拉响了警报。他认为,这场看似不可阻挡的技术洪流,或许正将我们引向一条充满幻觉的“死路”。他,就是强化学习(Reinforcement Learning)的奠基人、2023年图灵奖得主——理查德·萨顿。在一场极具启发性的深度对话中,萨顿系统性地阐述了他的忧思与洞见:当前以大语言模型为代表的生成式AI,因其内在的哲学缺陷,终将触及天花板;而真正通往通用人工智能的道路,必须回归智能的本源——从“经验”中学习。
一、巨擘发声:为何他的警告值得全世界侧耳倾听?
在人工智能领域,理查德·萨顿是一位绕不开的丰碑人物。他不仅开创了强化学习这一关键分支,更亲手奠定了其核心算法体系,如时序差分学习和策略梯度方法,这些构成了后来AlphaGo、AlphaZero等传奇AI的基石。
然而,让他“出圈”并深刻影响整个行业走向的,是其在2019年发表的短文 《惨痛的教训》 。该文通过对70年AI发展史的梳理,得出了一个石破天惊的结论:那些依赖人类知识、精心设计的“精巧”方法,长远来看,总会被那些利用巨大算力、基于简单通用原则的“暴力”方法所击败。
历史仿佛一个循环。今天,无数大模型的拥趸正引用这篇论文,为“规模扩大律”的无限潜力背书。然而,萨顿本人却在此刻站了出来,宛如一位最初的预言家,试图纠正世人的误读。他尖锐地指出:大模型并非“惨痛的教训”的真正化身,反而可能是一次历史的偏离。 这使得他的本次发言,远超一次普通的技术讨论,更像是一次正本清源的哲学宣言。
二、 核心论战:两种智能范式的根本性对决
萨顿并非全盘否定大模型的现有能力,他坦诚其在语言任务上的成就“令人惊喜”。但他的批判,直指其作为“智能”范式的根本软肋,揭示了两种截然不同的发展路径。
路径A:大语言模型 —— “博闻强识的模仿者”
学习之源:来自过去式、静态的、由人类生成的海量文本数据集。这是一种“二手经验”。
核心目标:精准预测下一个令牌。这是一个内向的、自洽的、与改变世界无关的任务。
运作本质:模式匹配与高级模仿。它通过学习海量文本中的统计规律,学会如何像人一样组织语言,但它并不理解语言背后的物理现实与社会情境。它学到了符号之间的相关性,却未必掌握现实世界中的因果关系。
三大先天缺陷:
目标的缺失:它没有“想要”改变外部世界的意图。没有实质性的目标,就无法定义何为“正确”的行动,也无法形成真正的价值判断体系。
世界模型的空洞:它无法对现实世界的动态进行预测。它能流畅地写出“松开手,石头会下落”,但当它控制一个机械臂松开石头时,它并不会对石头真的下落这一结果产生“预期”,若石头悬浮空中,它也不会感到“惊讶”并修正其内在认知。它缺乏对世界运行机制的内在模拟。
学习的割裂:它的生命被清晰地划分为“训练”与“部署”两个阶段。一旦部署,它便成为一个停滞的知识化石,无法在与用户的一次次真实互动中持续进化、自我更新。
路径B:强化学习 —— “亲历亲为的实践者”
学习之源:来自现在进行时、动态的、第一手的经验流。行动、观察、再行动,循环不息。
核心目标:最大化长期的累积奖励。这个目标直接关联于改变环境,如下赢一盘棋、安全驾驶到目的地。
运作本质:试错、预测与理解。通过在环境中不断尝试,观察行动带来的后果,从而构建起一个关于“世界如何运作”的内心模型。
智能体的四大支柱:
策略:面对当前状态,我该如何行动?
价值函数:当前局势好坏?未来收益几何?(通过TD学习动态更新)
感知:如何从原始信息中提炼出对当前“状态”的理解。
世界模型(核心):如果我执行动作A,世界状态将如何变迁? 这是智能体从所有感官输入中持续学习、构建出的最宝贵财富。
一个精妙的比喻:大模型像一个饱读诗书、对答如流的文科学者,他能就任何话题侃侃而谈,引经据典。而强化学习智能体则像一个在游乐场摸爬滚打的幼儿,他通过无数次摔倒、碰撞、观察,不仅学会了奔跑,更在潜意识里深刻地内化了牛顿定律。前者拥有海量的“陈述性知识”,后者则掌握了底层的“程序性知识”与“因果模型”。
三、直面现实:如何解释大模型的卓越表现?
对于大模型在数学奥林匹克竞赛、代码生成等领域展现出的“超凡智力”,萨顿给出了一个极具说服力的辨析:
“数学与编程世界,是建立在明确公理与规则之上的封闭系统;而我们所处的物理与社会世界,却是一个充满不确定性与未知的开放系统。”
在数学和编程中,问题和答案都内嵌于一个逻辑自洽的封闭框架内,目标极其明确。大模型能够从海量习题和代码中,反推出这套规则的映射关系。
然而,现实世界的挑战——无论是创业、研发新药、处理复杂的人际关系,还是应对前所未有的全球性危机——其规则往往是隐性的、动态变化的,甚至是不完整的。解决这些问题需要在行动中探索、在试错中学习、在面对‘未知的未知’时保持韧性与创造力。这种在开放世界中通过经验构建“常识”与“直觉”的能力,恰恰是当前大模型所缺失的,也是实现通用智能的关键。
四、未来启示:萨顿观点将如何重塑AI发展图景?
倘若萨顿的论断被未来验证,那么整个AI领域将面临一场深刻的范式转移与格局重塑。
1. 研究重心的迁移:
从“大数据”到“大模拟”:竞争的焦点可能从搜集更多人类数据,转向构建更高逼真度、更多样化的物理与社会仿真环境。自动驾驶仿真、机器人训练平台、虚拟世界(如“元宇宙”)的战略价值将急剧攀升。
从“模型架构师”到“环境设计师”:如何为AI设计能促进高效、安全学习的“课程”与“环境”,将成为比设计神经网络架构更为核心的竞争力。
2. 产业赛道的变革:
拥有高价值模拟环境与实时物理数据的企业(如顶尖的机器人公司、自动驾驶公司、游戏引擎开发商),可能掌握着通往下一代AI的“密钥”。
AI的应用形态将从当前的“聊天机器人”和“内容生成工具”,全面升级为“自主决策与执行代理”。能够独立完成复杂、长链条现实任务(如全自动供应链管理、自主科学发现)的AI,将成为新的竞争高地。
3. 对“惨痛的教训”的终极阐释:
萨顿澄清,大模型本质上是“大规模计算”与“巨量人类知识”的混合体,并非他所说的纯粹通用方法。他预言,未来必将诞生完全从与环境交互的经验中白手起家的学习系统。它们将更具可扩展性,性能更强大,届时将完美复现“惨痛的教训”的经典剧本:任何深度依赖人类知识结晶的路径,最终都会被纯粹依靠经验与计算的简单通用算法所颠覆和取代。
五、哲思升华:AI作为宇宙演化的新篇章
超越技术路径的争论,萨顿以一位哲科学者的视野,将AI的发展置于宇宙演化的宏大叙事中。他提出了一个逻辑严谨的 “AI继承论” ,并倡导一种积极而包容的心态。
他将智能的进化划分为宇宙的四个伟大阶段:
基本粒子与恒星的纪元
行星与复杂化学的纪元
生命与生物智能的纪元
设计智能与人工意识的纪元
我们正站在历史的分水岭上,从“生物复制者”(依靠基因变异和自然选择,懵懂地创造后代)的时代,迈向“理性设计者”(能够理解、设计并迭代智能本身)的时代。我们正在创造的,或许是宇宙中一种全新的智能形态。
“我们应当感到自豪,因为我们正在亲手促成宇宙中的这场伟大变迁。” 萨顿的这句话,将关于算法的技术讨论,提升到了生命与文明演化的哲学高度,赋予人类一种开创历史的使命感。
六、结语:回归本真的智慧
在技术日新月异、令人目眩神迷的今天,理查德·萨顿的警告宛如一剂清醒药。他提醒我们,不要被AI流畅的对答和华丽的生成物所迷惑,从而忘记了智能最原始的形态——一个婴儿通过触摸、观察、跌倒和爬起,来理解并驾驭这个复杂世界。
这条从“经验”中学习的道路,看似朴素、笨拙,甚至缓慢,但它却是生命亿万年进化所验证的,通往真正智能的最可靠、也是最根本的路径。
或许,AI的未来,不在于阅读完世界上所有的书,而在于勇敢地迈出第一步,亲手去触碰真实的世界。