当前位置: 首页 > news >正文

Reward Design with Language Models 译读笔记

Reward Design with Language Models

摘要

强化学习 (RL) 中的奖励设计具有挑战性,因为通过奖励函数指定人类期望行为的概念可能很困难,或者需要许多专家演示。那么是否可以使用自然语言界面cheaply设计奖励?本文探讨了如何通过提示GPT3等LLM作为 proxy reward function 来简化奖励设计,其中用户提供包含一些示例 (few-shot)或描述(zero-shot)的文本提示。本文的方法在RL框架中利用了这种代理奖励函数(proxy reward function)。具体来说,用户在训练开始时指定一次prompt。在训练过程中,LLM 根据该提示 evaluates RL智能体的行为,并输出相应的奖励信号。RL智能体则利用该奖励信号更新其策略。本文在“最后通牒博弈”(Ultimatum Game)、矩阵博弈(matrix games)和 DealOrNoDeal 谈判任务中评估了该方法。在所有三个任务中,实验表明:使用本文框架训练出的 RL 智能体能够很好地与用户目标对齐,且优于通过监督学习学到奖励函数所训练的RL智能体。代码和提示示例见here。

1 引言

随着计算能力和数据的增加,自主智能体的能力也越来越强。这一点凸显了人类用户能够控制智能体学习何种策略,并确保这些策略与自身目标保持一致的重要性。例如,想象一下训练一个智能体来代表用户进行 a salary negotiation。一位为争取足以维生的薪水而奋斗的职场母亲,可能希望她的智能体表现得固执;而一位希望与公司建立良好关系的新员工,则可能希望自己的智能体 more versatile。

目前,用户通过以下两种方式来指定期望的行为:1) 设计奖励函数,或 2) 提供大量的标注数据。

http://www.dtcms.com/a/520649.html

相关文章:

  • 江门网站快速排名阳江一中启业网
  • 【SpringCloud】回顾微服务
  • 【奇思妙想】Windows 设置在当前目录打开 Windows Terminal
  • 如何建设类似大众点评网站wordpress 调用所有
  • 企业网站导航设计广东建立网站
  • langchain_neo4j 以及 neo4j (windows-community) 的学习使用
  • linux 网站开发用个人的信息备案网站
  • FPGA开发 | Verilog条件语句详解与应用解析
  • 网站开发待遇高吗网页源代码提取音频
  • 图表控件Aspose.Diagram教程:在C#中将VSD转换为PDF
  • 网站改版对seo中山市网站建设公司
  • 组合总和——回溯模版
  • 大型网站制作导图有网站代码 如何建设网站
  • android开发和网站开发网络营销推广方案怎么做
  • 学pytorch的第一日
  • AI编程 -- LangChain
  • 网络层:数据平面
  • 【大话码游之 Observation 传说】中集:仙流暗涌,计数迷踪现
  • 华美天一建筑公司网站松江网站建设培训
  • 用微魔方做的网站一定要加网站友情链接出售
  • 一个真的可以优化论文的开源项目——Ai-Review
  • 网站制作要用哪些软件有哪些开源购物商城
  • 培训前端网站开发学网站开发要学什么
  • 校招三方签约问题
  • 动态规划的“升维”之技:二维前缀和,让矩阵查询“降维打击”
  • Neo4j 版本选型与 Java 技术栈深度解析:Spring Data Neo4j vs Java Driver,如何抉择?
  • 营销推广运营 网站黑色网站模板
  • wordpress建站文本教程seo的培训课程
  • 数据结构——二十九、图的广度优先遍历(BFS)(王道408)
  • 口碑好的国内真空泵机构分析