当前位置: 首页 > news >正文

强化学习之父 Richard Sutton :大模型是死路一条

一句话简介:

在科技界为ChatGPT、Sora等大模型所掀起的浪潮欢呼雀跃时,一位始终站在人工智能研究金字塔顶端的先驱,却冷静地拉响了警报。他认为,这场看似不可阻挡的技术洪流,或许正将我们引向一条充满幻觉的“死路”。他,就是强化学习(Reinforcement Learning)的奠基人、2023年图灵奖得主——理查德·萨顿。在一场极具启发性的深度对话中,萨顿系统性地阐述了他的忧思与洞见:当前以大语言模型为代表的生成式AI,因其内在的哲学缺陷,终将触及天花板;而真正通往通用人工智能的道路,必须回归智能的本源——从“经验”中学习。

一、巨擘发声:为何他的警告值得全世界侧耳倾听?

在人工智能领域,理查德·萨顿是一位绕不开的丰碑人物。他不仅开创了强化学习这一关键分支,更亲手奠定了其核心算法体系,如时序差分学习策略梯度方法,这些构成了后来AlphaGo、AlphaZero等传奇AI的基石。

然而,让他“出圈”并深刻影响整个行业走向的,是其在2019年发表的短文 《惨痛的教训》 。该文通过对70年AI发展史的梳理,得出了一个石破天惊的结论:那些依赖人类知识、精心设计的“精巧”方法,长远来看,总会被那些利用巨大算力、基于简单通用原则的“暴力”方法所击败。

历史仿佛一个循环。今天,无数大模型的拥趸正引用这篇论文,为“规模扩大律”的无限潜力背书。然而,萨顿本人却在此刻站了出来,宛如一位最初的预言家,试图纠正世人的误读。他尖锐地指出:大模型并非“惨痛的教训”的真正化身,反而可能是一次历史的偏离。 这使得他的本次发言,远超一次普通的技术讨论,更像是一次正本清源的哲学宣言。

图片

二、 核心论战:两种智能范式的根本性对决

萨顿并非全盘否定大模型的现有能力,他坦诚其在语言任务上的成就“令人惊喜”。但他的批判,直指其作为“智能”范式的根本软肋,揭示了两种截然不同的发展路径。

路径A:大语言模型 —— “博闻强识的模仿者”

  • 学习之源:来自过去式、静态的、由人类生成的海量文本数据集。这是一种“二手经验”。

  • 核心目标精准预测下一个令牌。这是一个内向的、自洽的、与改变世界无关的任务。

  • 运作本质模式匹配与高级模仿。它通过学习海量文本中的统计规律,学会如何像人一样组织语言,但它并不理解语言背后的物理现实与社会情境。它学到了符号之间的相关性,却未必掌握现实世界中的因果关系

  • 三大先天缺陷

    1. 目标的缺失:它没有“想要”改变外部世界的意图。没有实质性的目标,就无法定义何为“正确”的行动,也无法形成真正的价值判断体系。

    2. 世界模型的空洞:它无法对现实世界的动态进行预测。它能流畅地写出“松开手,石头会下落”,但当它控制一个机械臂松开石头时,它并不会对石头真的下落这一结果产生“预期”,若石头悬浮空中,它也不会感到“惊讶”并修正其内在认知。它缺乏对世界运行机制的内在模拟。

    3. 学习的割裂:它的生命被清晰地划分为“训练”与“部署”两个阶段。一旦部署,它便成为一个停滞的知识化石,无法在与用户的一次次真实互动中持续进化、自我更新。

路径B:强化学习 —— “亲历亲为的实践者”

  • 学习之源:来自现在进行时、动态的、第一手的经验流。行动、观察、再行动,循环不息。

  • 核心目标最大化长期的累积奖励。这个目标直接关联于改变环境,如下赢一盘棋、安全驾驶到目的地。

  • 运作本质试错、预测与理解。通过在环境中不断尝试,观察行动带来的后果,从而构建起一个关于“世界如何运作”的内心模型。

  • 智能体的四大支柱

    • 策略:面对当前状态,我该如何行动?

    • 价值函数:当前局势好坏?未来收益几何?(通过TD学习动态更新)

    • 感知:如何从原始信息中提炼出对当前“状态”的理解。

    • 世界模型(核心)如果我执行动作A,世界状态将如何变迁? 这是智能体从所有感官输入中持续学习、构建出的最宝贵财富。

一个精妙的比喻:大模型像一个饱读诗书、对答如流的文科学者,他能就任何话题侃侃而谈,引经据典。而强化学习智能体则像一个在游乐场摸爬滚打的幼儿,他通过无数次摔倒、碰撞、观察,不仅学会了奔跑,更在潜意识里深刻地内化了牛顿定律。前者拥有海量的“陈述性知识”,后者则掌握了底层的“程序性知识”与“因果模型”。

三、直面现实:如何解释大模型的卓越表现?

对于大模型在数学奥林匹克竞赛、代码生成等领域展现出的“超凡智力”,萨顿给出了一个极具说服力的辨析:

“数学与编程世界,是建立在明确公理与规则之上的封闭系统;而我们所处的物理与社会世界,却是一个充满不确定性与未知的开放系统。”

在数学和编程中,问题和答案都内嵌于一个逻辑自洽的封闭框架内,目标极其明确。大模型能够从海量习题和代码中,反推出这套规则的映射关系。

然而,现实世界的挑战——无论是创业、研发新药、处理复杂的人际关系,还是应对前所未有的全球性危机——其规则往往是隐性的、动态变化的,甚至是不完整的。解决这些问题需要在行动中探索、在试错中学习、在面对‘未知的未知’时保持韧性与创造力。这种在开放世界中通过经验构建“常识”与“直觉”的能力,恰恰是当前大模型所缺失的,也是实现通用智能的关键。

四、未来启示:萨顿观点将如何重塑AI发展图景?

倘若萨顿的论断被未来验证,那么整个AI领域将面临一场深刻的范式转移与格局重塑。

1. 研究重心的迁移:

  • 从“大数据”到“大模拟”:竞争的焦点可能从搜集更多人类数据,转向构建更高逼真度、更多样化的物理与社会仿真环境。自动驾驶仿真、机器人训练平台、虚拟世界(如“元宇宙”)的战略价值将急剧攀升。

  • 从“模型架构师”到“环境设计师”:如何为AI设计能促进高效、安全学习的“课程”与“环境”,将成为比设计神经网络架构更为核心的竞争力。

2. 产业赛道的变革:

  • 拥有高价值模拟环境与实时物理数据的企业(如顶尖的机器人公司、自动驾驶公司、游戏引擎开发商),可能掌握着通往下一代AI的“密钥”。

  • AI的应用形态将从当前的“聊天机器人”和“内容生成工具”,全面升级为“自主决策与执行代理”。能够独立完成复杂、长链条现实任务(如全自动供应链管理、自主科学发现)的AI,将成为新的竞争高地。

3. 对“惨痛的教训”的终极阐释:

萨顿澄清,大模型本质上是“大规模计算”与“巨量人类知识”的混合体,并非他所说的纯粹通用方法。他预言,未来必将诞生完全从与环境交互的经验中白手起家的学习系统。它们将更具可扩展性,性能更强大,届时将完美复现“惨痛的教训”的经典剧本:任何深度依赖人类知识结晶的路径,最终都会被纯粹依靠经验与计算的简单通用算法所颠覆和取代。

五、哲思升华:AI作为宇宙演化的新篇章

超越技术路径的争论,萨顿以一位哲科学者的视野,将AI的发展置于宇宙演化的宏大叙事中。他提出了一个逻辑严谨的 “AI继承论” ,并倡导一种积极而包容的心态。

他将智能的进化划分为宇宙的四个伟大阶段:

  1. 基本粒子与恒星的纪元

  2. 行星与复杂化学的纪元

  3. 生命与生物智能的纪元

  4. 设计智能与人工意识的纪元

我们正站在历史的分水岭上,从“生物复制者”(依靠基因变异和自然选择,懵懂地创造后代)的时代,迈向“理性设计者”(能够理解、设计并迭代智能本身)的时代。我们正在创造的,或许是宇宙中一种全新的智能形态。

“我们应当感到自豪,因为我们正在亲手促成宇宙中的这场伟大变迁。” 萨顿的这句话,将关于算法的技术讨论,提升到了生命与文明演化的哲学高度,赋予人类一种开创历史的使命感。


六、结语:回归本真的智慧

在技术日新月异、令人目眩神迷的今天,理查德·萨顿的警告宛如一剂清醒药。他提醒我们,不要被AI流畅的对答和华丽的生成物所迷惑,从而忘记了智能最原始的形态——一个婴儿通过触摸、观察、跌倒和爬起,来理解并驾驭这个复杂世界。

这条从“经验”中学习的道路,看似朴素、笨拙,甚至缓慢,但它却是生命亿万年进化所验证的,通往真正智能的最可靠、也是最根本的路径

或许,AI的未来,不在于阅读完世界上所有的书,而在于勇敢地迈出第一步,亲手去触碰真实的世界。

http://www.dtcms.com/a/465577.html

相关文章:

  • 【YOLO 模型入门】(1)一文读懂 YOLO:从核心概念到检测原理
  • redis消息队列
  • AI任务相关解决方案21-一种基于大语言模型、多智能体协作平台MCP、Agent、RAG技术的项目投标智能化系统与方法
  • 做一个能注册用户的网站深圳优化网站公司
  • 哈尔滨seo建站怎么用wordpress建立自己的网站
  • Frigate - IP 摄像头开源程序实时目标检测 NVR
  • Ubuntu系统使用指南
  • BERT文本分类超参数优化实战:从13小时到83秒的性能飞跃
  • 传输层协议之TCP协议
  • k8s中实现pod热加载
  • 医疗网站建设中心百度做个网站要多少钱
  • 万盛网站建设公司视频网站制作
  • H618-内核驱动的第一个hello world
  • IEEE内期刊论文爬取
  • 网站设计创意wordpress实现图片幻灯展示效果
  • docker部署安装milvus(向量数据库)、配置依赖etcd和MinIO
  • 网站建设属开票核定税种江苏徐州工程交易网
  • 鸿蒙开发6--HarmonyOS标签页应用开发实战教程
  • 使用ts-jest进行TypeScript的单元测试配置
  • 108、23种设计模式之模板方法模式(17/23)
  • React 19.2.0: 新特性与优化深度解析
  • {【MySQL】深入解析InnoDB存储引擎的MVCC机制与实现原理}
  • 吉安哪家做网站的公司好html简单网站成品免费
  • 以太网PHY芯片全面解析:物理层核心、单多口设计与实战选型
  • 微网站怎么制作网站建设 起飞
  • Docker镜像仓库全方位使用指南
  • 做网站网络合同上海网站建设网站开发
  • Deep Neural Networks for YouTube Recommendation
  • Vue支持预览 docx格式,xlsx格式,pdf格式的文件
  • 海南工程建设资料备案网站抖音开放平台官网入口