当前位置: 首页 > news >正文

AGILE:开启LLM Agent强化学习的创新框架

在大语言模型(LLMs)蓬勃发展的今天,基于LLMs构建的智能体成为研究热点。但如何将各组件整合优化仍是难题。本文提出的AGILE框架给出了创新解法,它不仅统一多组件,还让智能体性能超越GPT-4。想知道它是如何做到的吗?快来一探究竟!

论文标题
AGILE: A Novel Reinforcement Learning Framework of LLM Agents
来源
arXiv:2405.14751v2 [cs.LG] 5 Nov 2024
https://arxiv.org/abs/2405.14751

文章核心

研究背景

大语言模型(LLMs)展现出强大能力,推动了基于LLMs的智能体(LLM agents)发展,但目前尚不清楚如何将规划、反思、工具使用等组件整合到统一框架并进行端到端优化。

研究问题

  1. 缺乏统一框架整合和优化LLM智能体的多个组件,如规划、反思、工具使用等,各组件间协同工作机制不明确。
  2. 现有复杂问答(QA)基准测试无法全面评估智能体结合所有模块和能力的表现,难以反映智能体在实际应用中的综合能力。
  3. 大语言模型存在幻觉、缺乏长尾知识等问题,在智能体中如何有效利用人类专家知识提升性能,同时平衡准确性和人力成本是挑战。

主要贡献

  1. 提出新强化学习框架:设计AGILE(AGent that Interacts and Learns from Environments)框架,实现智能体端到端学习。该框架让智能体可主动向人类专家寻求建议,处理复杂问题时能保证准确性,并从人类学习中提升适应新任务的能力。
  2. 开发新基准数据集:创建ProductQA数据集,包含88,229个问答对,涉及26个QA任务,涵盖多种问题类型,可全面评估智能体处理历史信息、使用工具、与人交互、自我评估和反思等能力。
  3. 验证框架有效性:在ProductQA、MedMCQA和HotPotQA等多个任务上实验,结果表明基于7B和13B LLMs且经近端策略优化算法(PPO)训练的AGILE智能体性能优于GPT-4智能体。

方法论精要

1. 核心算法/框架:AGILE框架由LLM、记忆、工具和执行器四个模块构成。将智能体构建视为强化学习问题,LLM作为策略模型,执行器根据LLM指令实现状态转换,环境给出奖励,通过这种方式实现智能体与环境的交互和学习。

2. 关键参数设计原理:在策略学习中,无论是模仿学习(IL)还是强化学习(RL),都将损失计算限定在动作令牌上,并使用当前LLM上下文$ c_{i} 作为注意力掩码。对于长轨迹问题, ∗ ∗ 通过将轨迹划分为较小片段,并提出会话级优化算法 ∗ ∗ ,引入代理奖励 作为注意力掩码。对于长轨迹问题,**通过将轨迹划分为较小片段,并提出会话级优化算法**,引入代理奖励 作为注意力掩码。对于长轨迹问题,通过将轨迹划分为较小片段,并提出会话级优化算法,引入代理奖励 \overline{r}{k}\left(\tau{i}\right) $ ,简化优化过程。

3. 创新性技术组合:结合LLM、记忆、工具和执行器,使智能体具备推理、规划、反思和寻求建议等能力。例如,智能体可利用记忆模块检索历史信息,使用工具模块进行产品搜索等操作,遇到难题时向专家寻求建议并通过反思积累知识。

4. 实验验证方式:在ProductQA、MedMCQA和HotPotQA三个复杂QA任务上评估AGILE智能体。选择GPT-3.5、GPT-4等作为基线模型,对比直接提示模型回答(如gpt3.5-prompt、gpt4-prompt)和在AGILE框架内提示模型回答(如agile-gpt3.5-prompt、agile-gpt4-prompt)的结果。同时,通过调整寻求建议成本、进行消融研究等方式验证框架和各模块的有效性。

实验洞察

1. 性能优势:在ProductQA数据集上,agile-vic13b-ppo相比agile-gpt4-prompt,短答案平均总得分相对提高9.2%,长答案提高5.0%;在MedMCQA数据集上,agile-mek7b-ppo准确率达到85.2%,相比基线模型Meerkat-7b-prompt提升31.8%,超过当前最优模型gpt4-Medprompt(79.1%);在HotPotQA数据集上,agile-vic13b-ppo准确率为67.5%,相比最强基线ReAct-gpt4-prompt提升40.0%。

2. 消融研究:在ProductQA数据集上的消融实验表明,禁用寻求建议功能导致准确率下降10.7%,总得分降低5.0%;移除工具使用功能使寻求建议频率增加25.9%,总得分降低9.3%;去除记忆或反思能力也会使寻求建议频率上升,总得分下降,验证了各核心模块的重要性。

本文由AI辅助完成。

相关文章:

  • 【dify—3】拉取镜像、本地访问dify
  • AimRT 从零到一:官方示例精讲 —— 六、pb_chn示例.md
  • 香港科技大学广州|可持续能源与环境学域博士招生宣讲会—四川大学专场
  • 【Fifty Project - D20】
  • 【自然语言处理与大模型】LangChain大模型应用框架入门②
  • 8分钟快速掌握Markdiwn
  • 阿里Qwen3 8款模型全面开源,免费商用,成本仅为 DeepSeek-R1 的三分之一
  • AIGC(生成式AI)技术全景图:从文本到图像的革命
  • Unity PBR基础知识
  • VS Code 的新AI Agent 模式绝了
  • OpenGL学习笔记(PBR)
  • 在Spark中通过jps命令看到的进程名,是哪个命令产生有什么作用
  • 【图片识别成表格】批量图片识别成excel表格,批量识别图片区域文字保存到excel表格,基于WPF和腾讯OCR的识别方案
  • 使用Forge API制作《我的世界》Java版MOD的一般步骤
  • 51LA使用方法与悟空统计,网站数据分析的双重选择
  • 证券项目场景题深度解析
  • 物联网平台厂商有哪些?2025物联网平台推荐?国内有哪些比较好的物联网平台?
  • Game Booster汉化版:一键优化,畅享游戏
  • STM32 SPI通信协议
  • Android Studio 中实现方法和参数显示一行
  • 探索演艺产业新路径,2万观众走进音乐科技融创节
  • 西班牙葡萄牙遭遇史上最严重停电:交通瘫了,通信崩了,民众疯抢物资
  • 中国黄金协会:一季度我国黄金产量同比增1.49%,黄金消费量同比降5.96%
  • 上海市市管干部任职前公示:赵亮拟为地区区长人选
  • 凝聚多方力量,中国农科院油菜产业专家团部署单产提升新任务
  • 儒说︱问世间孝为何物