当前位置: 首页 > news >正文

设计电子商务网站方式网站备案拍照点

设计电子商务网站方式,网站备案拍照点,百度地图3d实景地图,如何宣传公司GEM: 迈向通用LLM智能体训练新纪元 本文将介绍开源框架GEM(General Experience Maker),它为大型大语言模型(LLM)智能体提供了标准化的环境模拟平台,支持多任务、多工具集成及灵活的强化学习训练。通过统一…

GEM: 迈向通用LLM智能体训练新纪元

本文将介绍开源框架GEM(General Experience Maker),它为大型大语言模型(LLM)智能体提供了标准化的环境模拟平台,支持多任务、多工具集成及灵活的强化学习训练。通过统一接口与多样化环境,GEM解决了现有框架中环境与训练耦合的问题,为通用智能体研究提供了强大工具。

博客标题:💎 GEM: A Gym for Generalist LLMs
来源:https://axon-rl.notion.site/gem

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

我们正进入"era of experience",LLM训练从静态数据集转向智能体在复杂环境中通过经验学习。传统强化学习中,OpenAI Gym通过标准化接口极大推动了算法发展,但现有LLM智能体训练框架存在环境与训练耦合紧密的问题,难以灵活集成不同强化学习框架。

为此,GEM作为专门为LLM设计的环境模拟器,旨在填补这一空白,支持通用智能体的高效训练与 benchmarking。

研究问题

  • 现有LLM训练框架将环境与训练逻辑紧密耦合,导致难以适配不同强化学习框架(如Oat、Verl),限制了算法灵活性。
  • 多轮交互场景下,传统强化学习算法(如GRPO)因需要从同一状态采样多个 episode 完成,难以兼容多轮基于回合奖励的任务。
  • 缺乏标准化的多任务、多工具集成环境,阻碍了通用LLM智能体在推理、规划、工具使用等综合能力上的系统评估。

主要贡献

  • 提出 GEM 框架,通过解耦环境与训练框架,实现与主流强化学习框架(Oat、Verl 等)的无缝集成,提供标准化接口(reset/step)。
  • 设计支持多轮交互的 REINFORCE 算法变体,引入批次回报归一化(batch return normalization),解决了多轮回合奖励场景下的学习效率问题,兼容单轮与多轮任务。
  • 构建包含 5 类任务(数学、游戏、问答、代码、ReasoningGym)和 2 种工具(Python 执行、搜索)的多样化环境集,并提供异步向量环境、灵活包装器等功能,支持高效训练与扩展。

思维导图

方法论精要

环境设计与接口规范

GEM遵循OpenAI Gym的设计理念,为LLM智能体提供标准化环境接口,核心方法包括:

  • reset(seed):初始化环境状态(如生成数学问题、游戏初始状态),返回初始观测值。
  • step(action):执行智能体动作(如LLM生成的回答或工具调用),返回下一观测、奖励、终止信号(terminated/truncated)及附加信息。

环境由任务与工具组合构成:

  • 任务类别:
    • 数学(Math):需链式推理解决数学问题;
    • 游戏(Game):基于TextArena的多轮文本游戏(如猜数字);
    • 问答(QA):知识密集型检索与回答生成;
    • 代码(Code):生成并验证Python代码;
    • ReasoningGym:轻量级推理任务包装器。

  • 工具支持:
    • Python工具:解析并执行代码块,返回输出或错误信息;
    • 搜索工具:解析查询并调用外部搜索引擎返回结果。

关键功能特性

  • 异步向量环境:支持并行执行多个环境实例,结合自动重置(autoreset)机制,无需手动跟踪每个episode的终止状态,只需初始化时调用一次reset,后续通过step持续生成数据,显著提升训练吞吐量。
  • 环境包装器:提供灵活的观测、动作、奖励转换机制,例如FrameStackObservation通过维护观测历史滑动窗口增强马尔可夫性,适用于长程多轮交互场景。
  • 自定义环境扩展:通过继承GEM基类,定义状态转换与奖励逻辑即可注册新环境,支持通过数据集扩展数学、代码、问答任务,或通过代码实现新游戏环境。

Baseline算法

GEM采用基于REINFORCE的多轮强化学习算法,核心改进为批次回报归一化。

具体流程如下:

  1. 数据收集与回报计算:
    • 收集一批episodes,每个episode包含多步交互(transition);
    • 逆向计算每个时间步的折扣累积回报;
    • 对所有transition的回报进行批次归一化。
  2. 策略更新:
    • 基于归一化回报,通过策略梯度更新LLM参数;
    • 支持近端更新(proximal update)提升样本效率,优化目标包含完整推理轨迹+动作,避免长度偏差。
  3. 与现有算法的区别:
    • 相比GRPO,无需从同一状态采样多个episode完成,兼容多轮回合奖励场景;
    • 通过批次归一化引入负梯度信号,解决0/1奖励下学习效率低下的问题。

训练框架集成

GEM支持与主流强化学习框架集成:

  • Oat集成:实现基于GEM向量环境的数据收集actor,将经验发送给learner进行策略更新;
  • Verl集成:替换数据集采样为GEM环境交互,作为数据生成器嵌入训练循环。
    实验验证两种框架的训练曲线一致性,证明GEM的框架无关性。

实验洞察

折扣因子对多轮策略的影响

GuessTheNumber游戏(目标是通过最小步数猜中1-50之间的数字,最优策略为二分查找)中,分析折扣因子$ \gamma $的影响:

结果显示,较小的γ\gammaγ(如0.5)鼓励短视决策,推动智能体学习更优策略(平均步数接近log⁡2(50)≈5.6\log_2(50) \approx 5.6log2(50)5.6);

较大的γ\gammaγ(如0.9)导致智能体接受更长路径,平均步数更高;

示例表明,γ=0.9\gamma=0.9γ=0.9时智能体明确采用二分查找策略,验证了折扣因子对策略优化方向的引导作用。

工具使用对性能的提升

math:Orz57K(数学任务,配Python工具)和qa:HotpotQA(问答任务,配搜索工具)中对比工具使用效果:

  • 基准算法:REINFORCE(无工具)、Dr.GRPO(无工具);
  • 结果显示,工具使用显著提升性能:数学任务中REINFORCE+工具略优于基准,问答任务中性能接近翻倍;
  • Dr.GRPO在无工具时略优于REINFORCE,可能得益于组内对比学习信号,但工具带来的增益更为显著。

批次回报归一化的有效性

对比不同奖励塑造策略在多轮工具使用场景的效果:

  • 无归一化(No norm):0/1奖励下,模型无法学习工具使用,性能停滞;
  • 负奖励(Neg rew):1(正确)/-1(错误)奖励,在数学任务中无明显提升,在问答任务中导致工具滥用;
  • 批次回报归一化:0/1奖励经归一化后,在数学、问答及游戏环境中均表现优异,有效解决了负梯度缺失问题,且对奖励塑造不敏感。

基准性能与泛化能力

数学任务泛化:

  • 训练模型:Qwen3-4B-Base,在math:Orz57K上训练;
  • 结果:RL训练+工具使用显著提升多数据集平均性能(从36.2%提升至49.8%),尤其在AIME24(+20%)和AMC(+16.9%)任务上增益明显。

问答任务泛化:

  • 训练设置:单环境(qa:HotpotQA) vs 混合环境(qa:HotpotQA+qa:NaturalQuestions),有无搜索工具;
  • 结果:RL+工具+混合环境训练效果最优,多数据集平均准确率达45.45%,较基线(10.16%)提升35个百分点,单跳与多跳任务均有显著增益。

跨框架一致性:

  • Oat与Verl在相同环境上的训练曲线几乎重合,验证了GEM与不同训练框架集成的一致性。

关键发现

  • 折扣因子是多轮任务中策略优化的关键参数,较小值更利于学习短路径最优策略;
  • 工具集成(Python/搜索)能大幅提升LLM在知识密集型和计算密集型任务上的性能;
  • 批次回报归一化是解决多轮场景下0/1奖励学习效率问题的简单有效方法,优于负奖励塑造;
  • 混合环境训练能增强模型的泛化能力,尤其在问答任务中表现突出。
http://www.dtcms.com/a/571555.html

相关文章:

  • 做网站苏州自己怎么做dj 视频网站
  • 国内大的网站建设公司排名crm软件免费
  • 专业专业的网站开发代理平台哪个好
  • 无锡网站制作电话多少wordpress ssl 500
  • 网站建设功能定位丹东seo优化效果费用
  • 网站界面ui设计国家开放大学答案网站建设新手教程视频
  • 西安seo网站关键词广西专业做网站的公司
  • 珠海建网站价格百度seo快速
  • 开源系统网站网站服务器位置查询
  • 做企业网站步骤制作外贸网站模板下载
  • 注册网站查询系统厦门手机网站建设是什么意思
  • 表白网站怎么做wordpress go链接不跳转
  • 旅游网站制作文献seo排名优化软件价格
  • 公园网站建设方案wordpress 提权攻击
  • 如何做行业网站有创意的电商公司名字大全
  • 怎么给自己公司做网站外贸出口退税流程
  • 医疗协助平台网站建设方案wordpress幻灯片教程视频
  • 如何使用模板网站建设网页深圳软件app开发公司
  • 绍兴建设局网站wordpress文章显示摘要
  • 沧州网站建设哪家专业哪儿能做邯郸网站建设
  • 物理机 kali 改造笔记 (一)
  • 线上陪聊服务系统/陪伴平台|陪玩系统源码解析
  • 博野网站建设9个广州seo推广神技
  • 做网站人员有什么名称wordpress登录页
  • 商城html模板郑州seo代理商
  • LNMT部署zrlog个人博客(动静分离高可用集群)
  • 网站logo提交织梦游戏网站源码
  • asp网站收录后换成php网站转向链接 要注意什么网站控制板面
  • 代刷网站搭建教程wordpress文章发布器
  • 绵阳做网站的公司有哪些网络设计与制作课程