当前位置: 首页 > news >正文

解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs-强化学习算法AlphaGo

解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs-强化学习算法AlphaGo

大家看这边是alphago zero的训练过程。
在这里插入图片描述

我说的训练过程是随着时间的推移的变化,你看见这个红点了, 其实你看你,你首先应该最开始应该关注的是这个绿色的点。这个绿色的点是代表了什么?你从最开始的时候,大家注意,这个叫alphago zero,他这边是zero的这种状态。它基本的一种意思是说我没有前置的一些,比如说cold start等等之类,它直接使用强化学习的方式。大家可以看啊,它它这个红色点会在几个不同的阶段,给你标注出它的关键的这个转折点。

在这里插入图片描述
在最开始的时候,他并没有prior knowledge,所以他开始很糟糕。然后三天之后,他就具备了这个alphago 的能力,这就相当于人类的顶级的水平了。然后21天之后他就完成了这个alphago master , 他采用了一些例如SFT等相关的内容。然后40天以后他超越了所有的版本的alphago 的内容,所以这个是强化学习。

大家可以看随着时间的推移,他能够不断的自我的成长学习。当然所谓的成长的学习就是不断的进行explore和exploit。然后他不断的找最佳的模式,或者我们统称之为学习的过程,叫learn from experience。这是google的 deep mind给我们的具体的信息,在这幅图中这是DeepSeek R1 zero给我们的信息。
在这里插入图片描述
随着我们训练的不同,或者说您可以认为随着训练实践的不断的增加,然后他的这个reason capability越来越强。但在这里代表reasoning capability,你可以认为是length,就是他输出的这个长度,就思考的过程越来越多。但可能会有人说,你思考过程越来越多,不一定代表这个reason capability越来越强,这个说法没问题,但从模型的角度讲,你可以认为这个趋势是正确的。所谓趋势就是当你能够思考的内容越来越多,思考的步骤越来越多,维度越来越多的时候,他的推理能力越来越强。

在这里插入图片描述

相关文章:

  • NeurIPS Paper Checklist中文翻译
  • 如何下载和安装 Ghost Spectre Windows 11 24H2 PRO
  • CD38.【C++ Dev】string类的模拟实现(2)
  • 深入理解卷积神经网络:从基础原理到实战应用
  • 2025年道路运输安全员考试题库及答案
  • vulnhub靶场——secarmy
  • Python知识框架
  • SSH秘钥配置介绍
  • 44、私有程序集与共享程序集有什么区别?
  • 怎么实现Redis的高可用?
  • GraphPad Prism简介、安装与工作界面
  • 【CUDA】Sgemm单精度矩阵乘法(下)
  • 使用mermaid 语言绘画时序图和链路图
  • 编程日志5.5
  • 计算机网络:怎么理解调制解调器的数字调制技术?
  • SDIO EMMC中ADMA和SDMA简介
  • Ansible Roles 是一种用于层次化和结构化组织 Ansible Playbook 的机制。
  • [已解决] VS Code / Cursor / Trae 的 PowerShell 终端 conda activate 进不去环境的常见问题
  • Windows 环境下安装 Node 和 npm
  • 【Pandas】pandas DataFrame describe
  • 马上评|这种“维权”已经不算薅羊毛,涉嫌犯罪了
  • 外企聊营商|威能集团:公平环境增“暖”意
  • 女外交官郑璇已任中国驻莫桑比克大使
  • 受贿3501万余元,中石油原董事长王宜林一审被判13年
  • 新剧|《藏海传》定档,《折腰》《人生若如初见》今日开播
  • 从这些电影与影像,看到包容开放的上海