当前位置: 首页 > wzjs >正文

dw做游戏网站代码网站营销软文

dw做游戏网站代码,网站营销软文,国家反诈中心app下载注册,做一个公司网站多少钱作者:Ignacio de Gregorio 图片来自 Unsplash 的 Bahnijit Barman 几周前,我们看到 Anthropic 尝试训练 Claude 去通关宝可梦。模型是有点进展,但离真正通关还差得远。 但现在,一个独立的小团队用一个只有一千万参数的模型通关了…

作者:Ignacio de Gregorio

图片来自 Unsplash 的 Bahnijit Barman

几周前,我们看到 Anthropic 尝试训练 Claude 去通关宝可梦。模型是有点进展,但离真正通关还差得远。

但现在,一个独立的小团队用一个只有一千万参数的模型通关了宝可梦,比主流前沿 AI 模型小了几千倍。

举个例子,它比最先进的 DeepSeek V3 模型小了 60,500 倍。

但这怎么可能呢?这么小的模型怎么能比所谓的“前沿模型”表现得还好?难道 AI 实验室的钱都打水漂了吗?

答案是:深度诅咒。这是一个很有意思的现象,任何想了解 AI 中最反直觉的问题之一,以及业界打造 AGI 最靠谱路径的人,都值得看看。

训练 AI 处理长线任务

这个小模型是通过强化学习算法(Reinforcement Learning,简称 RL)训练出来的。就像我以前说过很多次的,这个技术就是给 AI 一个目标和一些约束条件,让它学会一套能达成目标的行动策略。

但这次我想聚焦在三件事上:

  1. 为什么 RL 和过去两年我们用大语言模型(LLM)做的事不一样,
  2. 为什么它对于推动 AI 到新高度至关重要,
  3. 还有,为什么这么小的模型能打败大块头们?

我们来深入看看。

从模仿到探索

如果我们看看 AI 的最前沿,有两种主要的训练范式:模仿学习和探索学习。

模仿学习顾名思义就是让模型模仿它的训练数据。通过这种模仿,模型能识别出数据中的底层模式,然后学着去模仿它们。

在 LLM 的情况下,这个训练过程叫做“预训练”,模型会被暴露在互联网级别的大数据集上,它要学会如何模仿这些内容(当然我们也会加些小技巧,让模型在推理阶段生成相似的内容,而不是一模一样的句子;不然它就只是个数据库了)。

模仿学习在让 AI 行为像人方面非常优秀,而且在我们手上有大量可供模仿的数据时,是最佳选择。

但它也会促进记忆式的训练(说到底,就是让模型模仿数据嘛),这也解释了为什么 LLM 的表现主要依赖于它们的记忆能力,而不是真正的智能。

也就是说,模仿学习终究是有上限的。因为有很多应用场景,我们希望 AI 能处理的,恰恰卡在两个问题上:

  1. 我们没那么多数据给它模仿;
  2. 我们也不想让它去“模仿”,尤其是那种背诵式的,而是要它“真正推理”。

说到这,举个最好的例子就是:推理类任务。

AI 推理的科学

首先,推理类数据(就是人类会明确写出他们怎么推理的过程)非常少。再者,前面说过了,我们不希望 AI 是模仿,我们希望它“跳出框框”,或者更准确地说,在记忆不起作用的时候,探索出不同的解决方式。

基本上我在讲的就是为什么普通的非推理类 LLM 在推理任务上很拉胯——它们不是被训练来“推理”的,而是训练来“复读”的,所以它们只能“执行”它们记住的任务,本质上就是死记硬背而不是逻辑思考。

换句话说,有些任务是需要探索的,就像你也不是每道数学题都能一眼解出来。但是你有那个直觉——数学的“先验知识”——你能通过尝试去探索直到找到答案。

所以最近我们就把一个探索阶段,也就是 RL 阶段,加到了 LLM 上面,让它们去“探索”。

那这到底是怎么工作的?

理解推理训练

探索训练的基本思路就是让模型输出不同的答案,然后我们在训练时实时给予反馈,看哪个答案好,哪个不好。这样模型就能学会什么行为会带来好结果,什么不会。

你可以把这个训练想象成“热还是冷”游戏:我们告诉模型“热”或者“冷”,这样它就能一步步靠近目标(当然实际比这复杂多了,但基本逻辑就是这样)。在实际操作中,这就变成了大规模的试错游戏。

第一个真正用上探索训练的 LLM 是 DeepSeek R1(可能 o3 更早,但他们后来才承认)。

可以想象,这个方法极大地提高了 AI 在推理任务上的表现,于是我们才有了所谓的“推理模型”,像前面提到的 OpenAI 的 o1/o3 或 DeepSeek 的 R1。

在 LLM 的世界里,这种探索训练让模型发展出了推理技巧,比如反思(模型能反省自己的“想法”)、回溯(模型承认错误并自行纠正)等等。

通俗点说,就是靠“蛮力”试错,模型学会了怎么最有效地解决问题。这也是为什么 DeepSeek 的结果被认为是重大突破。

在 DeepSeek/OpenAI 出现之前,我们所谓的 RL 其实只是“人类反馈的强化学习”(RLHF),就是模型在两个选项中学会挑出更合适的那个,以此符合工程师希望的行为。但这当中没有探索,所以其实说是 RL 有点名不副实。

注意:大多数实验室现在仍然会用 RLHF,但只是作为进入“真正 RL”前的一个阶段。

总结一下,现在这些前沿推理模型的训练流程分两个步骤:

  1. 通过模仿学习把知识“塞进”模型,造出一个非推理模型(也就是传统的 LLM);
  2. 然后基于这个“认知基础”(或者说是直觉引擎,毕竟这个模型对问题处理还是有点直觉的),我们跑一轮探索训练,让它靠这些直觉去探索、去学会推理,最终造出一个推理模型。

如果这样理解更容易,那你可以把“推理”看作:直觉(内置知识和经验)+ 搜索。

换句话说,推理 = 直觉驱动的探索

说清楚 RL 在现在 AI 世界的重要性之后,我们还没回答这个问题:

一个小得不能再小的纯 RL 模型,怎么能打败用 RL 训练过的、像 Claude 3.7 Sonnet 这样的推理 LLM

广度 vs 深度

几十年来,AI 一直在“广”与“深”之间拉扯。

  • LLM 是“广”的代表。它们是超大规模的模型,被喂进各种你能找到的数据,目标是实现泛化,也就是在没见过的数据任务上也能表现不错。
  • 相对的,像 AlphaGo/AlphaZero 或这次的宝可梦模型,就是“深”的代表。它们只用 RL 训练,而且只聚焦在一个任务上。

在“基础模型”出现之前(它们之所以被叫这个名字就是这个原因),AI 一直是“深”的游戏:每个模型只专注一个任务。

而如今,大部分资金都砸在“广”的模型上。为什么?这样做有什么代价?

你大概已经猜到了,答案就是:AGI(通用人工智能)之梦

主流观点是,超级智能的 AI 应该是通用的。不需要它对每个任务都训练得很深入(这也不现实),但它应该有一套足够好的“先验知识”,能在没训练的任务上也有 decent 的表现。

有趣的是,虽然这个观点没错(也确实有证据,比如 AlphaZero 在多个棋类游戏上都超过了专精模型),但超级 AI 的表现却反着来。

人类历史上所有达到“超人水平”的 AI(就是远远超越人类的)全是单任务模型,比如 AlphaGo(围棋)。

而到目前为止,没有一个“广”的模型,在任何一个任务上做到超人。

这就解释了为什么我们今天讨论的这个宝可梦模型,虽然比 SOTA 小了四个数量级,却轻松打爆它们:

这个模型放弃了“广”,换来了在一个任务上的极致表现。

换句话说,它小巧、灵活,只专注一个任务,所以才能练出这个任务的终极能力,甚至反过来打败“全能型”的选手。它靠的是“开挂式”的探索学习。

这又意味着什么?

不像 LLM,因为太贵,无法让它们跑非常长时间的探索来找最优策略;小模型恰好相反:它可能在多个任务上都拉,但在那个唯一训练过的任务上,它能打出神级表现。

总结一句话,这个小团队之所以能训练出一个能打爆主流模型的宝可梦 AI,就是因为虽然我们知道 RL 很强,但我们还没学会怎么在“基础模型”上正确地跑 RL。

这能不能做到、能不能把 RL 训练应用到大模型上,就是现在所有顶级 AI 实验室都在努力搞清楚的问题。

所以,RL 是答案吗?

这项研究看起来可能有点泄气:

  • 我们 AI 的路是不是走错了?
  • 是不是在大模型上烧钱没意义?
  • AGI 是不是应该由一堆小的、单任务的模型组成?

我能理解你有这些想法,但我其实恰恰相反地看:

这又一次证明了 RL 是有效的,我们只需要找到方法,把它扩展到更大规模上。

如果我们能在 LLM 的基础上跑出纯 RL,那我们可能就找到了通往新时代 AI 的路:不再是“模仿”智能,而是真正拥有某种程度的“智能”。

这会不会把 AI 推向真正的智能?我们希望如此,但也不能确定。不过这是我们唯一已知的靠谱赌注,那就只能希望它能成功了。

但我们现在搞清楚怎么让这一步发生了吗?没有,那些被吹成“博士水平”的 LLM 连井字棋都玩不好。

总的来说,本文最重要的 takeaway 是:RL,或者说探索学习,依然是唯一一个在某些情况下能做到“超人表现”的方法。

虽然手段不同、技术各异,但从基本原理上看,所有 AI 实验室走的其实是一条路:直觉驱动的搜索

你只需要知道这一点,就能明白现在前沿 AI 的真相。他们全都在玩同一个游戏。

剩下的,就只是工程和资本分配而已。

http://www.dtcms.com/wzjs/523763.html

相关文章:

  • 禅城网站建设多少钱今天重大新闻头条新闻
  • 做网站主播要什么条件东莞seo外包平台
  • 网站建设包括哪些东莞seo快速排名
  • 网页设计怎么分析网站啊免费发布推广平台
  • 报网站开发培训班世界杯32强排名
  • 网站想要游览怎么做企业管理培训课程报名
  • 做pc端网站策划google网站搜索
  • 网络营销案例题百度seo优化教程
  • 网站的切图是谁来做网络营销课程培训机构
  • 网站热销榜怎么做百度关键词推广2元一天
  • 邢台网站建设平台网络服务商怎么咨询
  • 新疆政府网站建设情况宁波seo快速排名
  • wordpress功能以及使用seo云优化
  • 项目运营方案seo教程免费分享
  • java 动态网站开发网络服务商
  • 东莞大朗疫情最新情况论述搜索引擎优化的具体措施
  • 做外贸网站咨询百度高级搜索功能
  • 微博带动网站做排名百度关键词优化软件排名
  • 汽油最新价格苏州网站优化排名推广
  • 怎样自己做免费的网站域名解析在线查询
  • 服装效果图网站武汉软件测试培训机构排名
  • 赌博网站怎么搭建宁波网站建设公司哪家好
  • 谷歌排名网站优化关键词搜索查询
  • 最便宜的网站建设阿里巴巴怎么优化关键词排名
  • 教做甜品的网站商业计划书
  • 珠海建设改革有哪些网站友链查询站长工具
  • 设计公司品牌网站站长工具seo综合查询下载
  • 必须在当地网站备案广告外链购买交易平台
  • wordpress newseo关键词排名优化推荐
  • 通过骗子网站能找到其服务器吗百度指数电脑版