当前位置: 首页 > news >正文

Eureka: Human-Level Reward Design via Coding Large Language Models 译读笔记

Eureka: Human-Level Reward Design via Coding Large Language Models

摘要

大型语言模型 (LLM) 作为顺序决策任务的高级语义规划器表现出色。然而,利用它们来学习复杂的低级作任务,例如灵巧的笔spinning,仍然是一个悬而未决的问题。我们弥合了这一基本差距,并提出了Eureka,这是一种由LLM提供支持的人类级奖励设计算法。Eureka利用最先进的 LLM(例如 GPT-4)卓越的零样本生成、代码编写和上下文改进能力,对奖励代码进行进化优化。然后,由此产生的奖励可用于通过强化学习获得复杂的技能。无需任何特定于任务的提示或预定义的奖励模板,Eureka生成的奖励函数的性能优于专家人工设计的奖励。在包含10种不同机器人形态的 29 个开源 RL 环境的多样化套件中,Eureka在83%的任务上优于人类专家,平均标准化改进率为52%。Eureka的通用性还使得一种新的无梯度上下文学习方法能够从人类反馈中强化学习(RLHF),轻松地结合人类输入来提高生成奖励的质量和安全性,而无需更新模型。最后,在课程学习环境中使用Eureka奖励,我们首次演示了一种能够执行转笔技巧的模拟影子手,熟练地快速绕圈纵笔。

1 引言

大型语言模型 (LLM) 作为机器人任务的高级语义规划器表现出色 (Ahn et al., 2022; Singh et al., 2023), 但它们是否可以用来学习复杂的低级作任务,例如灵巧的笔旋转,仍然是一个悬而未决的问题。现有的尝试需要大量的领域专业知识来构建任务提示或只学习简单的技能,这在实现人类水平的灵活性方面留下了很大的gap(Yu et al., 2023; Brohan et al., 2023)。

另一方面,强化学习 (RL) 在灵活性方面取得了令人印象深刻的成果 (Andrychowicz et al., 2020; Handa et al., 2023) 以及许多其他领域——如果人类设计者能够仔细构建奖励函数,准确地编纂并为所需行为提供学习信号;同样,许多现实世界的 RL 任务都承认难以学习的稀疏奖励,因此需要提供增量学习信号的奖励塑造。尽管奖励函数具有根本性的重要性,但众所周知,奖励函数在实践中很难设计 (Russell & Norvig, 1995; Sutton & Barto, 2018); 最近进行的一项调查发现,92% 的受访强化学习研究人员和从业者报告了手动试错奖励设计,89% 的人表示他们设计的奖励不是最优的(Booth et al., 2023) 并导致意外行为 (Hadfield-Menell et al., 2017)。

鉴于奖励设计的至关重要性,本文探究是否有可能使用最先进的编码LLMs(例如 GPT-4) 开发通用奖励编程算法。

http://www.dtcms.com/a/490683.html

相关文章:

  • 随时随地看监控:我的UptimeKuma远程访问改造记
  • 关于网站篡改应急演练剧本编写(模拟真实场景)
  • 河北省企业网站建设公司企业管理系统软件有哪些
  • JVM的classpath
  • RVO优化
  • ethercat 环型拓扑(Ring Topology)
  • 颠覆PD快充、工业控制与智能家电等领域高CTR,高隔离电压高可靠性光电耦合器OCT1018/OCT1019
  • 【机器学习入门】8.1 降维的概念和意义:一文读懂降维的概念与意义 —— 从 “维度灾难” 到低维嵌入
  • 黄骅市旅游景点有哪些盐城网站关键词优化
  • 对于网站建设的调查问卷爱南宁app官网下载
  • 一文读懂 YOLOv1 与 YOLOv2:目标检测领域的早期里程碑
  • 在 Windows 10/11 LTSC等精简系统中安装Winget和微软应用商店,Windows Server安装Microsoft Store的应用
  • A2A架构详解
  • 基础 - SQL命令速查
  • logo图片素材大全sem和seo都包括什么
  • 把 AI“缝”进布里:生成式编织神经网络让布料自带摄像头
  • 岳阳建网站长沙网站优化价格
  • [Sora] 分布式训练 | 并行化策略 | `plugin_type` | `booster.boost()`
  • Linux系统函数link、unlink与dentry的关系及使用注意事项
  • 安卓手机 IP 切换指南:告别卡顿,轻松换 IP
  • 微服务拆分:领域驱动设计,单体应用如何平滑迁移?
  • 企业网站推广的形式有哪些福州网站推广排名
  • 关键词优化网站排名群英云服务器
  • nano-GPT:最小可复现的GPT实操
  • 网站建设公众号wordpress中文模板下载地址
  • 菜单及库(Num28)
  • super()核心作用是调用父类的属性/方法
  • 【Win32 多线程程序设计基础第三章笔记】
  • CentOS 7 FTP安装与配置详细介绍
  • 网页设计跟网站建设的区别淘宝店铺运营推广