当前位置：首页 > news >正文

【SayCan】LLM+价值函数：以言为引，量力而行

news 2025/10/20 7:58:55

本系列目前的考量是以论文为基础，逐步解读机器人感知与决策相关的算法（决策为主，感知为辅），并且聚焦核心技术，论文中细节性、基础性的工作仅作必要补充。博客作为我的学习笔记，其写作的过程即为博主知识体系构建的过程，希望能凭此特点给读者提供循序渐进的阅读体验，但也难免存在局限性，如有疏漏欢迎指正。

论文标题：Do As I Can, Not As I Say:Grounding Language in Robotic Affordances

论文发表时间：2022年8月

研究背景

大语言模型（Large Language Model，LLM）凭借其超大规模的参数量，从网上庞大的语料库中汲取了大量的知识，已经能够完成复杂的语言处理与生成任务。这样的能力对于机器人接收人类下达的自然语言作为指令完成任务至关重要，我们自然期望将LLM直接应用于机器人执行自然语言指令任务。

但是LLM仅仅基于上下文完成任务，无法直接获得来自物理世界的信息，包括机器人处于什么样的环境与状态，某个行动会对现实产生什么样的影响等等。LLM具有分析并响应自然语言指令的能力，即“Say”，但机器人能不能理解其响应，进而又能不能在现实世界中执行，即“Can”，LLM自身则无法保证。

早期的LLM针对“饮料洒了”，GPT3回应“试试使用真空吸尘器”，但场景中可能没有真空吸尘器或机器人无法使用；LaMDA和FLAN的回复“要我找个真空吸尘器吗？”“对不起，我不是故意的”仅仅从对话意义上来看是合理的。

为此，SayCan先给智能体训练一系列配备了语言描述的技能单元，规范LLM的“Say”使之输出机器人可以理解的低级技能序列，再学习与技能对应策略的价值函数作为衡量“Can”的指标。通过将LLM的“Say”和现实世界的“Can”结合起来作为机器人高层决策的依据，SayCan让机器人完成了简单的自然语言指令任务，成为了LLM+Robotics的开山之作。

SayCan：Do As I Can, Not As I Say

问题陈述

系统接收用户提供的自然语言指令 $i$ ，描述机器人应该执行的任务，可以是长的、抽象的或模糊的。

智能体被赋予一个技能库 $Π\Pi$ ，其中每个技能 $π∈Π\pi\in\Pi$ 执行一个简短的任务，并附带一个简短的语言描述 $lπ\mathscr l_\pi$ 和示能函数（affordance function） $p(cπ∣s,lπ)p(c_\pi|s,\mathscr l_\pi)$ ，表示在状态 $s$ 下语言描述为 $lπ\mathscr l_\pi$ 的技能可以被完成（complete， $cπc_\pi$ ）的概率。本质上示能函数是 $p(cπ∣s,π)p(c_\pi|s,\pi)$ ，使用 $lπ\mathscr l_\pi$ 主要是为了在形式上与LLM的输入输出保持统一。在RL中，示能函数可以是技能的价值函数，成功完成的奖励为1，否则为0。

下图展示了不同状态下的示能空间 ${p(cπ∣s,lπ)}π∈Π\{p(c_\pi|s,\mathscr l_\pi)\}_{\pi\in\Pi}$ 。当场景中出现苹果和红牛罐头时，拾取苹果和红牛罐头具有较高的价值，且距离近者价值更高。

LLM给出技能的语言描述 $lπ\mathscr l_\pi$ 是用户指令 $i$ 的有效下一步的概率 $p(lπ∣i)p(\mathscr l_\pi|i)$ ，那么对于我们关注的某项技能可以被成功执行，并朝着完成指令的方向取得进展的概率 $p(ci∣i,s,lπ)p(c_i|i,s,\mathscr l_\pi)$ 有

$p(ci∣i,s,lπ)∝p(cπ∣s,lπ)p(lπ∣i)p(c_i|i,s,\mathscr l_\pi)\propto p(c_\pi|s,\mathscr l_\pi)p(\mathscr l_\pi|i)$

其中 $p(lπ∣i)p(\mathscr l_\pi|i)$ 被称为任务基础（task-grounding）， $p(cπ∣s,lπ)p(c_\pi|s,\mathscr l_\pi)$ 被称为世界基础（world-grounding）。

连接LLM到机器人

一个原始的LLM能够合理地响应我们给出的指令，但它不知道如何以机器人可以理解的方式，即低级技能序列作为响应。一种方法是依赖提示词工程，但这仍然无法对其输出进行严格的约束。为此，SayCan没有让LLM直接生成技能文本，而是为给定的文本计算可能性。

首先，设计提示词，通过少样本学习来引导LLM，让LLM学会以特定的格式和结构来回答“How would you …”，这是LLM后续给出合理概率打分的重要基础。

接下来，以用户指令 $i$ 作为上文，给定一系列候选技能的语言描述 $lΠ\mathscr l_\Pi$ ，LLM将计算每个候选技能描述 $lπ∈lΠ\mathscr l_\pi\in\mathscr l_\Pi$ 被预测为指令 $i$ 的下文的概率 $p(lπ∣i)p(\mathscr l_\pi|i)$ 。如果该概率很高，则意味着这个技能与用户指令的关联性很强，因而可以自然而然地成为了衡量技能对完成指令的推动作用的指标。

遍历完第一步的候选动作后，LLM将选取概率最高的候选技能 $lπ=argmaxlπ∈lΠp(lπ∣i)\mathscr l_\pi=\mathrm{argmax}_{\mathscr l_\pi\in\mathscr l_\Pi}p(\mathscr l_\pi|i)$ 执行，并将其附加到指令 $i$ 中用于对下一步候选动作进行打分，直至LLM认为指令已完成。

直接使用概率进行计算会导致数值下溢，因此LLM实际上给出的是对数概率。

策略训练

本小节简要介绍策略训练的具体实现，非核心内容

SayCan同时使用了基于BC-Z方法的行为克隆（Behavior Cloning，BC）和基于MT-Opt的RL来获取技能的策略。实验人员发现，BC策略在当前的数据集和实验条件下的成功率更高，但是BC策略在短期内的高成功率会使其训练得到的价值函数对失败边界的认识不足，相比之下RL策略训练出的价值函数更为可靠。所以最终，BC策略被选为执行器，而RL策略的价值函数则用于近似估计BC策略的示能函数。

奖励采用稀疏奖励函数，即技能执行成功为1，失败为0。关于成功的判定，实验人员采取了3人投票多数表决的方法，因为机器人判定难度太大。虽然人工方法效率较低，但是对于证明算法的可行性来说已经足够。

博主暂未学习BC这类模仿学习算法，将考虑在后续其他系列讲述

SayCan

现在我们将LLM的Say与示能函数的Can结合。在每一步技能决策，LLM根据指令上文给出技能的任务基础 $p(lπ∣i)p(\mathscr l_\pi|i)$ ，示能函数根据机器人物理状态给出技能的世界基础 $p(cπ∣s,lπ)p(c_\pi|s,\mathscr l_\pi)$ 。最终二者相乘得到的概率（在工程实践中采取对数概率相加）是SayCan选择技能的依据