当前位置: 首页 > wzjs >正文

网站更改公司需要重新备案吗济南新站seo外包

网站更改公司需要重新备案吗,济南新站seo外包,如何建设个人的网站,平台网站建设有哪些LOOP如何让长周期交互LLM代理在复杂环境中实现突破? 在AI与现实交互需求日益增长的今天,交互式数字代理(IDA)在多应用、多领域的复杂环境中表现仍有提升空间。本文提出的LOOP框架,通过强化学习(RL&#xf…

LOOP如何让长周期交互LLM代理在复杂环境中实现突破?

在AI与现实交互需求日益增长的今天,交互式数字代理(IDA)在多应用、多领域的复杂环境中表现仍有提升空间。本文提出的LOOP框架,通过强化学习(RL)让LLM代理在长周期交互中实现高效训练,在AppWorld基准测试中超越一众强基线,一起来探索这一突破性进展!

论文标题
Reinforcement Learning for Long-Horizon Interactive LLM Agents
来源
arXiv:2502.01600v3 [cs.LG] + https://arxiv.org/abs/2502.01600
PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

交互式数字代理(IDA)需借助状态化数字环境的 API 完成用户请求任务。尽管基于指令微调的大语言模型(LLM)能在多轮交互中响应接口调用反馈,但这类 IDA 并未在对应数字环境中开展训练。在如 AppWorld 这样的复杂基准测试里,即便是表现最优的开源模型成功率也低于 40%,顶尖推理模型的成功率刚过半数。这是因为完成一项任务可能需要代理与 Python 交互式环境(REPL)进行多达 40 次交互,处理 32K 令牌,而 AppWorld 环境状态更包含高达 30M 文本令牌,这使得合理管理上下文成为完成任务的关键。

研究问题

  1. 环境适配性不足:现有IDA未在目标数字环境中训练,对多应用、多领域的复杂环境适应能力差,在AppWorld等基准测试中表现不佳。

  2. 长期交互能力弱:长周期交互中,模型难以有效管理上下文,处理长达40次交互、32K令牌的任务时效率低下。

  3. 泛化能力受限:面对需要复杂逻辑和跨应用操作的任务,模型容易做出无根据假设、产生虚构信息,无法有效从挫折中恢复。

主要贡献

  1. 提出RL训练框架:首次将RL应用于通过直接API调用与有状态、多领域、多应用环境交互的IDA,设计LOOP算法,实现数据和内存高效的近端策略优化(PPO)变体,无需价值网络,内存中仅维护一个基础LLM副本。

  2. 性能显著提升:320亿参数的代理在AppWorld环境中使用LOOP训练,超越更大的OpenAI o1代理9个百分点(相对提升15%),在Test-N和Test-C上分别取得71.3和45.7的TGC,较基线模型提升显著。

  3. 揭示有效行为模式:训练使代理学会查阅API文档(查询增加约60%)、避免无根据假设(相关词汇减少约30倍)、减少虚构占位值(‘dummy’使用减少约6倍)、从挫折中恢复(API调用失败后放弃频率降低约3倍)等有效行为。

方法论精要

  1. 核心算法/框架:LOOP(Leave-One-Out Proximal Policy Optimization),将IDA任务形式化为部分可观测马尔可夫决策过程(POMDP),结合PPO与留一法(Leave-One-Out)优势估计,支持离策略样本重用,仅维护一个LLM副本。

  1. 关键参数设计原理:使用K=6次滚动(rollout) per任务,奖励R∈[0,1]为任务通过单元测试的比例,学习率5×10⁻⁵,梯度范数裁剪至1,训练中过滤低优势(|Â|<0.01)的滚动。

  2. 创新性技术组合:采用令牌级(per-token)重要性加权,结合留一法优势估计(避免使用价值网络),实现数据和内存高效的训练;通过POMDP建模环境状态、任务上下文和生成历史,支持长周期交互中的决策优化。

  3. 实验验证方式:在AppWorld基准上进行实验,该基准包含9个应用、457个API端点,750个任务分为训练、开发、Test-N和Test-C集。对比方法包括无微调(NFT)、监督微调(SFT-GT、RFT、EI)、直接偏好优化(DPO-MCTS、DMPO)和RL方法(PPO、RLOO、GRPO)等。

实验洞察

核心任务性能突破

  1. AppWorld基准测试结果

在AppWorld这一包含9个应用、457个API端点的复杂多域环境中,LOOP算法展现出显著优势:

  • Test-Normal(Test-N):任务目标完成率(TGC)达到71.3%,较基线模型Qwen2.5-32B(39.2%)提升81%,超越OpenAI o1代理(61.9%)9个百分点,相对性能提升15%。
  • Test-Challenge(Test-C):TGC达到45.7%,较Qwen2.5-32B(21.0%)提升117%,较OpenAI o1(36.7%)提升24%,在涉及新应用的复杂任务中优势显著。
  • 场景目标完成率(SGC):Test-N为53.6%,Test-C为26.6%,均大幅优于所有对比方法,验证了算法在复杂场景下的泛化能力。

  1. 与各类基线方法的对比
  • 无微调(NFT)模型:GPT-4o的Test-N TGC为48.8%,Test-C为30.2%;Llama 3 70B在Test-C仅7.0%,显示出预训练模型在交互任务中的局限性。
  • 监督微调(SFT)方法:SFT-GT因依赖固定解导致性能极差(Test-N TGC 6.2%),RFT(47.9%)和专家迭代(EI,58.3%)通过数据筛选提升性能,但仍显著低于RL方法。
  • 直接偏好优化(DPO):DMPO在Test-N达到59.0%,但在Test-C仅36.3%,表明其在长周期任务中的适应性不足。
  • 其他RL方法:RLOO(Test-N 57.2%)、GRPO(58.0%)等均被LOOP超越,凸显LOOP在策略优化上的优势。

效率与内存优化验证

  1. 样本与计算效率
  • 训练数据效率:仅使用24个训练场景(72任务)即可实现泛化,远少于传统RL所需的大规模数据集,证明LOOP的样本高效性。
  • 训练耗时:在两台NVIDIA H100 8-GPU节点上完成训练仅需42小时,迭代周期通过异步处理优化,较同步框架快3倍。
  1. 内存与模型规模优势
  • 内存占用:仅维护一个LLM副本,内存使用与单LLM微调相当,远低于传统RLHF需4个LLM副本的架构。
  • 模型参数效率:320亿参数的LOOP代理性能超越OpenAI o1(更大规模模型),证明算法优化比单纯扩大模型更有效。

消融研究:关键模块有效性验证

  1. 重要性权重形式的影响
  • 逐令牌(per-token)vs 逐轨迹/逐轮:逐令牌权重使Test-N TGC提升至71.3%,较逐轨迹(53.3%)和逐轮(64.1%)分别提升18和7个百分点,因单令牌更新更稳定,避免整段轨迹被错误裁剪。
  1. 奖励归一化的影响
  • 采用组内回报标准差归一化会导致Test-N TGC下降9个百分点(从71.3%降至61.9%),因归一化过度偏好低方差轨迹,忽略了需探索的复杂场景。
  1. KL惩罚的作用
  • 移除KL惩罚后,Test-C TGC从22.4%提升至26.6%,表明适度策略探索比严格约束更有利于复杂任务完成。
  1. 与其他RL变体的对比
  • LOOP vs GRPO:GRPO使用归一化优势估计,Test-N TGC为58.0%,LOOP通过非归一化设计提升13.3个百分点,验证了留一法优势估计的有效性。
  • LOOP vs PPO(learned critic):带学习 Critic的PPO在Test-N仅50.8%,低于LOOP的71.3%,表明显式价值网络在LLM交互场景中易引入误差。

行为模式与学习效果分析

关键行为优化

  • API文档查阅:训练后“show api doc”调用频率提升60%,从3.0次/rollout增至4.7次/rollout,减少了对未知API的错误假设。
  • 假设与占位值使用:“assuming”相关词汇使用量降低30倍,“dummy”占位值使用降低6倍,表明代理更依赖实际数据而非假设。
  • 错误恢复能力:API调用失败后的放弃率降低3倍,从0.23降至0.076,体现更强的问题解决韧性。

策略多样性与泛化

  • 解决方案多样性:在同一任务中,LOOP代理可生成4种不同策略(如直接搜索联系人、浏览社交动态等),98%的成功rollout采用独特API序列,避免过度拟合单一模式。
  • 抗干扰能力:训练后多代码单元提交频率降低6倍,从0.080次/turn降至0.013次/turn,转向更稳健的分步决策。

关键结论与意义

LOOP通过留一法优势估计+逐令牌PPO的创新组合,在保持内存高效的同时,实现了长周期交互任务中代理性能的显著突破。其核心价值在于:

  1. 证明RL可有效提升IDA在复杂环境中的决策能力,且无需大规模标注数据。
  2. 行为分析揭示RL能引导代理养成“查阅文档-避免假设-错误恢复”的良性决策模式。
  3. 为轻量级、高效的LLM代理训练提供了新范式,尤其适用于资源受限的交互场景。
http://www.dtcms.com/wzjs/345343.html

相关文章:

  • 阳泉移动网站建设百度公司的企业文化
  • 360打不开建设银行的网站兰州网络推广与营销
  • 网站友情链接怎么添加上海网络推广排名公司
  • 网站集约化建设推进情况企业邮箱查询
  • 德州做网站最好的公司有哪些做任务赚佣金一单10块
  • 为什么无法再社保网站上做减员搜狗推广
  • 网站上的广告位是怎么做的搜索广告排名
  • 博彩网站自己做竞价托管信息
  • 如何做盗版小说网站静态网页设计与制作
  • 做旅游网站的目的与意义核心关键词和长尾关键词举例
  • 洪梅网站建设公司深圳外贸网站推广
  • 阿里云建设网站买哪个服务设计公司取名字大全集
  • 深圳有实力的网站建设服务商百度小说app下载
  • 公司介绍模板免费陕西seo主管
  • 做网站时怎么插入视频搭建一个app平台需要多少钱
  • 泰安网页设计招聘网站怎么优化到首页
  • 苏州网站建设推荐好先生科技免费s站推广网站
  • 怎么做网站的地图页各种网站
  • 网站设计的用途免费注册网站
  • 帝国cms7.0网站地图网络营销工程师
  • 建筑工程网课哪个好seo培训学院官网
  • 国内最大ae模板下载网站百度左侧排名
  • 湖南响应式网站推荐seo怎么推排名
  • 深圳做门户网站的网络公司杭州百度优化
  • 个人网站 可以自己做服务器朋友圈软文范例
  • soho做网站要写品牌吗推广下载
  • 用户等待网站速度百度网址安全检测
  • 服装购物网站排名宁波seo托管公司
  • 南京网页设计培训机构上海关键词排名优化公司
  • 网站怎么做投票交换链接平台