当前位置：首页 > news >正文

Reward Design with Language Models 译读笔记

news 2025/10/24 10:30:01

Reward Design with Language Models

摘要

强化学习（RL）中的奖励设计具有挑战性，因为通过奖励函数指定人类期望行为的概念可能很困难，或者需要许多专家演示。那么是否可以使用自然语言界面cheaply设计奖励？本文探讨了如何通过提示GPT3等LLM作为 proxy reward function 来简化奖励设计，其中用户提供包含一些示例（few-shot）或描述（zero-shot）的文本提示。本文的方法在RL框架中利用了这种代理奖励函数（proxy reward function）。具体来说，用户在训练开始时指定一次prompt。在训练过程中，LLM 根据该提示 evaluates RL智能体的行为，并输出相应的奖励信号。RL智能体则利用该奖励信号更新其策略。本文在“最后通牒博弈”（Ultimatum Game）、矩阵博弈（matrix games）和 DealOrNoDeal 谈判任务中评估了该方法。在所有三个任务中，实验表明：使用本文框架训练出的 RL 智能体能够很好地与用户目标对齐，且优于通过监督学习学到奖励函数所训练的RL智能体。代码和提示示例见here。

1 引言

随着计算能力和数据的增加，自主智能体的能力也越来越强。这一点凸显了人类用户能够控制智能体学习何种策略，并确保这些策略与自身目标保持一致的重要性。例如，想象一下训练一个智能体来代表用户进行 a salary negotiation。一位为争取足以维生的薪水而奋斗的职场母亲，可能希望她的智能体表现得固执；而一位希望与公司建立良好关系的新员工，则可能希望自己的智能体 more versatile。

目前，用户通过以下两种方式来指定期望的行为：1) 设计奖励函数，或 2) 提供大量的标注数据。

查看全文

http://www.dtcms.com/a/520649.html