Reward Design with Language Models 译读笔记
Reward Design with Language Models
摘要
强化学习 (RL) 中的奖励设计具有挑战性,因为通过奖励函数指定人类期望行为的概念可能很困难,或者需要许多专家演示。那么是否可以使用自然语言界面cheaply设计奖励?本文探讨了如何通过提示GPT3等LLM作为 proxy reward function 来简化奖励设计,其中用户提供包含一些示例 (few-shot)或描述(zero-shot)的文本提示。本文的方法在RL框架中利用了这种代理奖励函数(proxy reward function)。具体来说,用户在训练开始时指定一次prompt。在训练过程中,LLM 根据该提示 evaluates RL智能体的行为,并输出相应的奖励信号。RL智能体则利用该奖励信号更新其策略。本文在“最后通牒博弈”(Ultimatum Game)、矩阵博弈(matrix games)和 DealOrNoDeal 谈判任务中评估了该方法。在所有三个任务中,实验表明:使用本文框架训练出的 RL 智能体能够很好地与用户目标对齐,且优于通过监督学习学到奖励函数所训练的RL智能体。代码和提示示例见here。
1 引言
随着计算能力和数据的增加,自主智能体的能力也越来越强。这一点凸显了人类用户能够控制智能体学习何种策略,并确保这些策略与自身目标保持一致的重要性。例如,想象一下训练一个智能体来代表用户进行 a salary negotiation。一位为争取足以维生的薪水而奋斗的职场母亲,可能希望她的智能体表现得固执;而一位希望与公司建立良好关系的新员工,则可能希望自己的智能体 more versatile。
目前,用户通过以下两种方式来指定期望的行为:1) 设计奖励函数,或 2) 提供大量的标注数据。
