当前位置: 首页 > news >正文

网站发语音功能如何做广州比较好的网站建设公司

网站发语音功能如何做,广州比较好的网站建设公司,抖音seo推广,深圳做网站的公司哪个好LOOP如何让长周期交互LLM代理在复杂环境中实现突破? 在AI与现实交互需求日益增长的今天,交互式数字代理(IDA)在多应用、多领域的复杂环境中表现仍有提升空间。本文提出的LOOP框架,通过强化学习(RL&#xf…

LOOP如何让长周期交互LLM代理在复杂环境中实现突破?

在AI与现实交互需求日益增长的今天,交互式数字代理(IDA)在多应用、多领域的复杂环境中表现仍有提升空间。本文提出的LOOP框架,通过强化学习(RL)让LLM代理在长周期交互中实现高效训练,在AppWorld基准测试中超越一众强基线,一起来探索这一突破性进展!

论文标题
Reinforcement Learning for Long-Horizon Interactive LLM Agents
来源
arXiv:2502.01600v3 [cs.LG] + https://arxiv.org/abs/2502.01600
PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

交互式数字代理(IDA)需借助状态化数字环境的 API 完成用户请求任务。尽管基于指令微调的大语言模型(LLM)能在多轮交互中响应接口调用反馈,但这类 IDA 并未在对应数字环境中开展训练。在如 AppWorld 这样的复杂基准测试里,即便是表现最优的开源模型成功率也低于 40%,顶尖推理模型的成功率刚过半数。这是因为完成一项任务可能需要代理与 Python 交互式环境(REPL)进行多达 40 次交互,处理 32K 令牌,而 AppWorld 环境状态更包含高达 30M 文本令牌,这使得合理管理上下文成为完成任务的关键。

研究问题

  1. 环境适配性不足:现有IDA未在目标数字环境中训练,对多应用、多领域的复杂环境适应能力差,在AppWorld等基准测试中表现不佳。

  2. 长期交互能力弱:长周期交互中,模型难以有效管理上下文,处理长达40次交互、32K令牌的任务时效率低下。

  3. 泛化能力受限:面对需要复杂逻辑和跨应用操作的任务,模型容易做出无根据假设、产生虚构信息,无法有效从挫折中恢复。

主要贡献

  1. 提出RL训练框架:首次将RL应用于通过直接API调用与有状态、多领域、多应用环境交互的IDA,设计LOOP算法,实现数据和内存高效的近端策略优化(PPO)变体,无需价值网络,内存中仅维护一个基础LLM副本。

  2. 性能显著提升:320亿参数的代理在AppWorld环境中使用LOOP训练,超越更大的OpenAI o1代理9个百分点(相对提升15%),在Test-N和Test-C上分别取得71.3和45.7的TGC,较基线模型提升显著。

  3. 揭示有效行为模式:训练使代理学会查阅API文档(查询增加约60%)、避免无根据假设(相关词汇减少约30倍)、减少虚构占位值(‘dummy’使用减少约6倍)、从挫折中恢复(API调用失败后放弃频率降低约3倍)等有效行为。

方法论精要

  1. 核心算法/框架:LOOP(Leave-One-Out Proximal Policy Optimization),将IDA任务形式化为部分可观测马尔可夫决策过程(POMDP),结合PPO与留一法(Leave-One-Out)优势估计,支持离策略样本重用,仅维护一个LLM副本。

  1. 关键参数设计原理:使用K=6次滚动(rollout) per任务,奖励R∈[0,1]为任务通过单元测试的比例,学习率5×10⁻⁵,梯度范数裁剪至1,训练中过滤低优势(|Â|<0.01)的滚动。

  2. 创新性技术组合:采用令牌级(per-token)重要性加权,结合留一法优势估计(避免使用价值网络),实现数据和内存高效的训练;通过POMDP建模环境状态、任务上下文和生成历史,支持长周期交互中的决策优化。

  3. 实验验证方式:在AppWorld基准上进行实验,该基准包含9个应用、457个API端点,750个任务分为训练、开发、Test-N和Test-C集。对比方法包括无微调(NFT)、监督微调(SFT-GT、RFT、EI)、直接偏好优化(DPO-MCTS、DMPO)和RL方法(PPO、RLOO、GRPO)等。

实验洞察

核心任务性能突破

  1. AppWorld基准测试结果

在AppWorld这一包含9个应用、457个API端点的复杂多域环境中,LOOP算法展现出显著优势:

  • Test-Normal(Test-N):任务目标完成率(TGC)达到71.3%,较基线模型Qwen2.5-32B(39.2%)提升81%,超越OpenAI o1代理(61.9%)9个百分点,相对性能提升15%。
  • Test-Challenge(Test-C):TGC达到45.7%,较Qwen2.5-32B(21.0%)提升117%,较OpenAI o1(36.7%)提升24%,在涉及新应用的复杂任务中优势显著。
  • 场景目标完成率(SGC):Test-N为53.6%,Test-C为26.6%,均大幅优于所有对比方法,验证了算法在复杂场景下的泛化能力。

  1. 与各类基线方法的对比
  • 无微调(NFT)模型:GPT-4o的Test-N TGC为48.8%,Test-C为30.2%;Llama 3 70B在Test-C仅7.0%,显示出预训练模型在交互任务中的局限性。
  • 监督微调(SFT)方法:SFT-GT因依赖固定解导致性能极差(Test-N TGC 6.2%),RFT(47.9%)和专家迭代(EI,58.3%)通过数据筛选提升性能,但仍显著低于RL方法。
  • 直接偏好优化(DPO):DMPO在Test-N达到59.0%,但在Test-C仅36.3%,表明其在长周期任务中的适应性不足。
  • 其他RL方法:RLOO(Test-N 57.2%)、GRPO(58.0%)等均被LOOP超越,凸显LOOP在策略优化上的优势。

效率与内存优化验证

  1. 样本与计算效率
  • 训练数据效率:仅使用24个训练场景(72任务)即可实现泛化,远少于传统RL所需的大规模数据集,证明LOOP的样本高效性。
  • 训练耗时:在两台NVIDIA H100 8-GPU节点上完成训练仅需42小时,迭代周期通过异步处理优化,较同步框架快3倍。
  1. 内存与模型规模优势
  • 内存占用:仅维护一个LLM副本,内存使用与单LLM微调相当,远低于传统RLHF需4个LLM副本的架构。
  • 模型参数效率:320亿参数的LOOP代理性能超越OpenAI o1(更大规模模型),证明算法优化比单纯扩大模型更有效。

消融研究:关键模块有效性验证

  1. 重要性权重形式的影响
  • 逐令牌(per-token)vs 逐轨迹/逐轮:逐令牌权重使Test-N TGC提升至71.3%,较逐轨迹(53.3%)和逐轮(64.1%)分别提升18和7个百分点,因单令牌更新更稳定,避免整段轨迹被错误裁剪。
  1. 奖励归一化的影响
  • 采用组内回报标准差归一化会导致Test-N TGC下降9个百分点(从71.3%降至61.9%),因归一化过度偏好低方差轨迹,忽略了需探索的复杂场景。
  1. KL惩罚的作用
  • 移除KL惩罚后,Test-C TGC从22.4%提升至26.6%,表明适度策略探索比严格约束更有利于复杂任务完成。
  1. 与其他RL变体的对比
  • LOOP vs GRPO:GRPO使用归一化优势估计,Test-N TGC为58.0%,LOOP通过非归一化设计提升13.3个百分点,验证了留一法优势估计的有效性。
  • LOOP vs PPO(learned critic):带学习 Critic的PPO在Test-N仅50.8%,低于LOOP的71.3%,表明显式价值网络在LLM交互场景中易引入误差。

行为模式与学习效果分析

关键行为优化

  • API文档查阅:训练后“show api doc”调用频率提升60%,从3.0次/rollout增至4.7次/rollout,减少了对未知API的错误假设。
  • 假设与占位值使用:“assuming”相关词汇使用量降低30倍,“dummy”占位值使用降低6倍,表明代理更依赖实际数据而非假设。
  • 错误恢复能力:API调用失败后的放弃率降低3倍,从0.23降至0.076,体现更强的问题解决韧性。

策略多样性与泛化

  • 解决方案多样性:在同一任务中,LOOP代理可生成4种不同策略(如直接搜索联系人、浏览社交动态等),98%的成功rollout采用独特API序列,避免过度拟合单一模式。
  • 抗干扰能力:训练后多代码单元提交频率降低6倍,从0.080次/turn降至0.013次/turn,转向更稳健的分步决策。

关键结论与意义

LOOP通过留一法优势估计+逐令牌PPO的创新组合,在保持内存高效的同时,实现了长周期交互任务中代理性能的显著突破。其核心价值在于:

  1. 证明RL可有效提升IDA在复杂环境中的决策能力,且无需大规模标注数据。
  2. 行为分析揭示RL能引导代理养成“查阅文档-避免假设-错误恢复”的良性决策模式。
  3. 为轻量级、高效的LLM代理训练提供了新范式,尤其适用于资源受限的交互场景。
http://www.dtcms.com/a/609769.html

相关文章:

  • 公司网站域名更改怎么做建设行业协会网站发展的建议
  • 【ZeroRange WebRTC】Kinesis Video Streams WebRTC Data Plane WebSocket API 深度解析
  • Docker核心概念、常用命令与实战指南
  • 交换机安全基线整改方式-华为S5700系列
  • Django 接口文档生成:Swagger 与 ReDoc 全面说明
  • Docker K8s VM 简介
  • FPGA教程系列-Vivado中读取ROM中数据
  • 网站怎么添加模块鹿寨建设局网站
  • 响应式外贸网站案例国外ps网站
  • springcloud feign远程调用请求参数对象变成linkhashmap处理
  • “耐达讯自动化Profibus总线光端机在化工变频泵控制系统中的应用与价值解析”
  • centos7.2安装cacti1.2.27
  • 将 vue3 项目打包后部署在 springboot 项目运行
  • 福州短视频seo网站建筑网站首页大图
  • 阿根廷网站后缀毕业设计网站成品
  • 性能相关指标
  • 数据结构--6:优先级队列(堆)
  • ESP32 Wsl2 环境搭建
  • Elasticsearch:如何创建知识库并使用 AI Assistant 来配置连接器
  • Blender学习笔记(04)-- 选中实体的一部分,单独设置颜色
  • 哪个网站做攻略比较好品牌vi设计案例欣赏ppt
  • 珠海市网站建设企业网站编辑给续南明做的封面
  • 国产化Excel开发组件Spire.XLS教程:Python将列表导出为CSV文件(含一维/二维/字典列表)
  • 接口自动化测试框架实战(Pytest+Allure+Excel)
  • 苹果质量检测与分类 - YOLO13结合RFCAConv实现
  • YZ系列工具之YZ09: VBA_Excel之读心术
  • 三芯联动:“通信 + 供电 + 主控”的安全闭环与场景革命
  • EXCEL 数字编码化排序(如部门层级排序)
  • sse,短轮询,长轮询,webSocket
  • 芦笋嫩茎形态分类与识别_YOLO11-C3k2-MambaOut-SFSC模型实现_1