当前位置: 首页 > news >正文

【大模型与智能体论文】REACT:协同语言模型中的推理与行动

这是Agent的开山之作
作者是姚顺宇大神

REACT:SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
REACT:协同语言模型中的推理与行动
ICLR 2023

论文链接
代码链接

在这里插入图片描述

0.论文摘要和信息

摘要

尽管大型语言模型在语言理解和交互决策任务中展现出卓越性能,但其推理能力(如思维链提示)与行动能力(如行动规划生成)此前主要被作为独立课题进行研究。本文探索以交错生成方式使大型语言模型同时产生推理轨迹与任务特定行动,从而增强二者的协同效应:推理轨迹辅助模型归纳、追踪和更新行动计划并处理异常情况,而行动使其能够与知识库或环境等外部源进行交互并获取额外信息。我们将名为ReAct的方法应用于多类语言与决策任务,实证表明其不仅超越现有最优基线模型,还提升了人类可解释性与可信度。具体而言,在问答任务(HotpotQA)和事实核查任务(Fever)中,ReAct通过与简易维基百科API的交互,克服了思维链推理中常见的幻觉和错误传播问题,生成的类人任务解决轨迹比无推理轨迹基线更具可解释性。此外,在两项交互决策基准测试(ALFWorld和WebShop)中,ReAct仅通过一两个上下文示例提示,就以34%和10%的绝对成功率分别超越模仿学习与强化学习方法。

1.引言

人类智能的一个独特特征在于能够将任务导向型行动与言语推理(或称内部言语,Alderson-Day & Fernyhough, 2015)无缝结合。该机制被理论认为在人类认知中发挥着重要作用——既能够实现自我调节与策略规划(Vygotsky, 1987; Luria, 1965; Fernyhough, 2010),又能维持工作记忆(Baddeley, 1992)。以厨房烹饪为例:在任意两个具体操作步骤之间,我们会通过语言推理来追踪进度(“食材已切配完毕,现在应该加热锅中的水”)、处理异常或根据情境调整计划(“没有食盐,可用酱油和胡椒替代”)、以及识别外部信息需求(“如何和面?需要上网查询”)。同时我们也会采取具体行动(翻阅食谱、打开冰箱核查食材)来支撑推理过程并解答问题(“现有条件下能制作什么菜肴?”)。这种“行动”与“推理”之间的紧密协同,使人类能够快速掌握新任务,即使在陌生环境或信息不确定条件下仍能进行稳健的决策与推理。

最新研究结果提示了在自主系统中将语言推理与交互决策相结合的可能性。一方面,经过恰当提示的大型语言模型已展现出新兴能力,能够通过多步推理轨迹进行推导。在算术、常识和符号推理任务中通过问题生成答案的研究(Wei等,2022)表明,这种“思维链”推理是一个静态黑箱——模型使用其内部表征生成思维,但未与外部世界建立联系,这限制了其反应性推理和知识更新的能力。这可能导致事实幻觉和推理过程中的错误传播等问题(图1(1b))。另一方面,近期研究探索了使用预训练语言模型在交互环境中进行规划与行动(Ahn等,2022;Nakano等,2021;Yao等,2020;Huang等,2022a),其重点是通过语言先验预测动作。这些方法通常将多模态观测转换为文本,利用语言模型生成领域特定动作或计划,再通过控制器选择或执行。然而除Huang等(2022b)通过有限语言推理重述当前空间状态外,现有研究未能运用语言模型进行高层目标抽象推理,也缺乏支持行动的工作记忆机制。超越此类与少量积木交互的简单具身任务,目前尚未有研究系统探讨如何将推理与行动协同结合用于通用任务求解,以及这种结合是否能产生优于单独推理或行动的系统性优势。

在这里插入图片描述
在这里插入图片描述
图1:(1) 四种提示方法的对比:(a)标准提示、(b)思维链(CoT,仅推理)、©仅行动、(d)推理+行动(ReAct),用于解决HotpotQA(Yang等人,2018)问题。(2) (a)仅行动与(b)ReAct提示在AlfWorld(Shridhar等人,2020b)游戏中的解决效果对比。两个实验均省略提示中的上下文示例,仅展示模型生成的任务解决轨迹(行动、思考)与环境反馈(观察)。

在本研究中,我们提出ReAct——一种将推理与语言模型行为相结合的通用范式,用于解决多样化的语言推理与决策任务(图1)。ReAct引导大语言模型以交错方式生成语言推理轨迹和任务相关行动,使模型能够通过动态推理来创建、维护并调整高层次行为规划(以推理指导行动),同时与外部环境(如维基百科)进行交互,将额外信息融入推理过程(以行动辅助推理)。

我们在四个多样化基准上对ReAct与先进基线方法进行了实证评估:问答任务(HotPotQA,Yang等人,2018)、事实核查(Fever,Thorne等人,2018)、文本游戏(ALFWorld,Shridhar等人,2020b)以及网页导航(WebShop,Yao等人,2022)。在可访问维基百科API的HotPotQA和Fever任务中,ReAct在超越原始动作生成模型的同时,与思维链推理(CoT)(Wei等人,2022)表现出相当竞争力。整体最优方法是结合ReAct与CoT的方案,该方案允许在推理过程中同时利用内部知识和外部获取信息。在ALFWorld和WebShop任务中,仅需两次甚至单次提示的ReAct方法即能超越经过10³~10⁵个任务实例训练的模仿学习或强化学习方法,成功率分别实现34%和10%的绝对提升。通过对比仅含动作的受控基线模型,我们进一步验证了稀疏多源推理在决策中的重要性。除普适性和性能提升外,推理与行动的融合还显著增强了模型在所有领域的可解释性、可信度与可诊断性——人类能够清晰区分模型内部知识与外部环境信息,并通过检查推理轨迹来理解模型决策依据。

总而言之,我们的核心贡献如下:(1)提出ReAct——一种基于提示的新型范式,通过协同推理与行动使语言模型具备通用任务解决能力;(2)在多样化基准测试中开展大量实验,证明ReAct在少样本学习场景下相较于孤立执行推理或行动生成的现有方法具有显著优势;(3)通过系统性消融实验与分析,揭示行动在推理任务及推理在交互任务中的关键作用;(4)剖析提示设置下ReAct的局限性(即对推理与行动行为的支持有限),并通过初步微调实验表明ReAct具有通过额外训练数据持续优化的潜力。扩大ReAct的训练与应用任务范围,并将其与强化学习等互补范式相结合,有望进一步释放大语言模型的潜能。

2 REACT:推理与行动的协同

考虑一个智能体与环境交互以解决任务的一般设定。在时间步t,智能体从环境接收观测值ot∈Oo_t ∈ OotO,并遵循某种策略π(at∣ct)π(a_t|c_t)π(atct)执行动作at∈Aa_t ∈ AatA,其中ct=(o1,a1,⋅⋅⋅,ot−1,at−1,ot)c_t = (o_1, a_1, · · · , o_{t-1}, a_{t-1}, o_t)ct=(o1,a1,⋅⋅⋅,ot1,at1,ot)是智能体的上下文。当映射关系ct→atc_t → a_tctat具有高度隐含性且需要大量计算时,策略学习将面临挑战。例如图1(1c)所示的智能体无法生成正确的最终动作(动作4)来完成问答任务,因为这需要对轨迹上下文(问题、动作1-3、观测1-3)进行复杂推理。类似地,图1(2a)中的智能体未能从上下文中理解水槽1并不包含胡椒瓶1,因而持续产生幻觉性动作。

ReAct机制的核心思想很简单:我们将智能体的动作空间扩展为A^=A∪LÂ = A ∪ LA^=AL,其中L表示语言空间。属于语言空间的动作a^t∈Lâ_t ∈ La^tL(我们称之为思考或推理轨迹)不会影响外部环境,因此不会产生观察反馈。相反,思考动作a^tâ_ta^t旨在通过对当前上下文ctc_tct进行推理来整合有用信息,并更新上下文ct+1=(ct,a^t)c_{t+1} = (c_t, â_t)ct+1=(ct,a^t)以支持后续推理或行动。如图1所示,可能存在多种类型的有效思考:例如分解任务目标并制定行动计划(图2b动作1;图1d思考1)、注入与任务解决相关的常识知识(图2b动作1)、从观察中提取关键信息(图1d思考2、4)、跟踪进度并转换行动计划(图2b动作8)、处理异常情况并调整行动计划(图1d思考3)等等。

然而,由于语言空间L具有无限性,在这种增强动作空间中进行学习颇具挑战,需要依赖强大的语言先验。本文主要研究如何通过少量上下文示例提示冻结的大型语言模型PaLM-540B(Chowdhery等人,2022),使其同时生成领域特定动作和自由形式语言思维以解决任务(图1(1d)、(2b))。每个上下文示例均为人类解决具体任务时产生的动作、思维与环境观测轨迹(参见附录C)。对于推理能力至关重要的任务(图1(1)),我们交替生成思维与动作,形成包含多轮思维-动作-观测步骤的任务求解轨迹;相反,在可能涉及大量动作的决策任务中(图1(2)),思维仅需轨迹的关键位置稀疏地出现思维,因此我们让语言模型自行决定思维与动作的异步发生时机。

由于大语言模型已集成决策与推理能力,ReAct因此具备若干独特优势:A) 直观易设计:人类标注者仅需在采取的行动基础上用语言记录思维轨迹,ReAct提示的设计流程极为直接。本文未采用特定格式选择、思维设计或示例筛选。具体任务的提示设计详见第3、4节。B) 通用且灵活:凭借灵活的思维空间及思维-动作组合形式,ReAct适用于具有不同动作空间与推理需求的多样化任务,包括但不限于问答、事实核查、文本游戏和网络导航。C) 高效稳健:仅通过1-6个上下文示例进行学习后,ReAct在新任务实例上展现出强大泛化能力,在不同领域持续超越仅具推理或行动能力的基线模型。第3节展示了启用微调后的附加优势,第4节则说明ReAct性能对提示选择具备鲁棒性。D) 人类对齐与可控:ReAct提供可解释的序列化决策推理过程,便于人类查验推理逻辑与事实准确性。如第4节图5所示,人类还可通过思维编辑实时控制或修正智能体行为。

3.知识密集型推理任务

我们从知识密集型推理任务开始,例如多跳问答和事实核查。如图1(1d)所示,通过与维基百科API交互,ReAct能够检索信息以支持推理,同时通过推理确定下一步检索目标,展现出推理与行动之间的协同作用。

3.1 设置

领域

我们选用两个具有知识检索与推理挑战的数据集:(1) HotPotQA(Yang等人,2018),这是一个需要基于两篇及以上维基百科段落进行推理的多跳问答基准;(2) FEVER(Thorne等人,2018),该事实核查基准中的每个主张均根据是否存在可验证的维基百科段落被标注为“支持”“反驳”或“证据不足”。本研究对两项任务均采用仅问题输入模式:模型仅接收问题/主张作为输入,不提供支撑段落,必须依赖其内部知识或通过与环境交互检索外部知识来支持推理。

动作空间

我们设计了一个简单的维基百科网络API,包含三类支持交互式信息检索的操作:(1)search[实体]——若对应维基百科词条存在则返回该页面前5个句子,否则从维基百科搜索引擎返回前5个相似实体建议;(2)lookup[字符串]——返回页面中包含该字符串的下一句,模拟浏览器Ctrl+F查找功能;(3)finish[答案]——以指定答案结束当前任务。需要说明的是,该操作空间大多只能基于精确段落名称检索小部分文本,其性能远逊于最先进的词法或神经检索器。我们的设计初衷是模拟人类与维基百科的交互方式,迫使模型通过显式语言推理进行检索。

3.2 方法

ReAct提示

对于HotpotQA和FEVER数据集,我们从训练集中分别随机选取6个和3个案例,手动编写符合ReAct格式的轨迹作为提示中的少量示例。与图1(d)类似,每条轨迹包含多个“思考-行动-观察”步骤(即密集思考模式),其中自由形式的思考被用于多种目的。具体而言,我们综合运用了以下思考方式:分解问题(“我需要先搜索x,找到y,再确定z”)、从维基百科观察中提取信息(“x始于1844年”、“该段落未提及x”)、进行常识推理(“x不是y,因此z应该是…”)或算术推理(“1844<1989”),以及引导后续操作搜索重构(“也许我可以搜索/查阅x作为替代”),并综合最终答案(“……因此答案是x”)。更多细节详见附录C。

Baselines

我们通过系统性地对ReAct轨迹进行消融来构建多种基线的提示(格式如图1(1a-1c)所示):(a) 标准提示法(Standard),该方法移除ReAct轨迹中的所有思考、行动和观察内容;(b) 思维链提示法(CoT)(Wei et al., 2022),该方法移除行动和观察内容,作为纯推理基线。我们还通过采样21条解码温度为0.7的CoT轨迹并采用多数答案构建了自洽基线(CoT-SC)(Wang et al., 2022a;b),该基线被证明能持续提升CoT的性能;© 纯行动提示法(Act),该方法移除ReAct轨迹中的思考内容,其模式近似于WebGPT(Nakano et al., 2021)与互联网交互回答问题的方式,但二者在任务类型、行动空间以及实现方法(后者使用模仿学习与强化学习而非提示法)上存在差异。

结合内部与外部知识

如第3.3节将详述,我们观察到ReAct展现的问题解决过程更具事实依据且贴合实际,而思维链(CoT)在构建推理结构方面更为精确,但容易产生虚构事实或想法。因此我们提出整合ReAct与CoT-SC方法,并让模型根据以下启发式规则自主决定切换时机:A) 当ReAct在设定步数内未能返回答案时,回退至CoT-SC方法。我们将HotpotQA和FEVER数据集的最大步数分别设为7步和5步,因为更多步骤不会提升ReAct性能³;B) 当n个CoT-SC样本中的多数答案出现次数低于n/2时(即内部知识可能无法充分支撑任务),则回退至ReAct方法。

在得出正确答案的所有轨迹中,HotpotQA上7步轨迹与FEVER上5步轨迹的占比分别仅为0.84%和1.33%。

微调

由于人工大规模标注推理轨迹和操作存在困难,我们采用类似Zelikman等人(2022)的引导方法,使用3,000条由ReAct(及其他基线模型)生成的正确答案轨迹,对小型语言模型(PaLM-8/62B)进行微调,使其能够根据输入问题/声明解码出完整轨迹(包括所有思考、操作和观察结果)。更多细节详见附录B.1。

3.3 结果与观察

ReAct的表现持续优于Act

表1展示了使用PaLM 540B作为基础模型时,采用不同提示方法在HotpotQA和Fever数据集上的表现结果。我们注意到,在这两项任务中ReAct方法均优于Act方法,这体现了通过推理来指导决策的价值——特别是在整合最终答案时(如图1(1c-d)所示)。微调实验结果³也进一步证实,推理轨迹有助于实现更具信息感知的决策过程。

在这里插入图片描述
表1:PaLM-540B模型在HotpotQA与Fever数据集上的提示学习效果

ReAct与CoT对比

另一方面,ReAct在Fever数据集上的表现优于CoT(60.9对56.3),而在HotpotQA上略逊于CoT(27.4对29.4)。Fever数据集中SUPPORTS/REFUTES的判定可能仅存在细微差异(参见附录D.1),因此采取行动检索准确且最新的知识至关重要。为深入理解ReAct与CoT在HotpotQA上的行为差异,我们分别从ReAct和CoT中随机抽取了50条具有正确和错误答案(通过精确匹配判断)的执行轨迹(共计200个样本),并在表2中人工标注了其成功与失败模式。主要发现如下:

在这里插入图片描述
表2:ReAct和CoT在HotPotQA上的成功类型与失败模式,及其在人工随机抽样研究案例中的占比。

A) 幻觉是思维链技术的严重问题,其在成功模式下的误报率远高于ReAct(14%对比6%),并构成主要失败模式(占比56%)。相比之下,由于能够访问外部知识库,ReAct的问题解决轨迹更具事实依据、以事实为驱动且更值得信赖。

B) 尽管交错进行推理、行动与观察的步骤提升了ReAct的 grounding 性和可信度,这种结构性约束也降低了其在构建推理步骤时的灵活性,导致其推理错误率高于思维链。我们注意到ReAct存在一种特定的高频错误模式,即模型会重复生成先前的思考与行动,并将其归类为"推理错误"——因为模型未能合理推演出下一步应采取的行动,从而无法跳出循环⁴。

C)对于ReAct而言,通过搜索成功获取信息性知识至关重要。非信息性搜索占错误案例的23%,不仅会扰乱模型推理过程,更使其难以恢复和重构思路。这或许是事实性与灵活性之间预期的权衡,从而促使我们提出融合两种方法的解决策略。

我们在附录E.1中为每种成功与失败模式提供了示例。同时发现部分HotpotQA问题可能包含过时的答案标注,具体案例参见图4。

ReAct + CoT-SC组合在大型语言模型提示策略中表现最佳

表1同时显示,HotpotQA和Fever数据集上的最佳提示方法分别为ReAct → CoT-SC和CoT-SC → ReAct。此外,图2展示了不同方法在采用不同数量CoT-SC样本时的表现。虽然两种ReAct + CoT-SC方法各自在单项任务中具有优势,但它们在不同样本数量下均显著且持续地超越CoT-SC——仅需3-5个样本即可达到CoT-SC使用21个样本才能实现的性能。这些结果表明,在推理任务中合理结合模型内部知识与外部知识具有重要价值。

在这里插入图片描述

表1:PaLM-540B模型在HotpotQA与Fever数据集上的提示学习效果

在这里插入图片描述

图2:PaLM-540B模型在不同数量CoT-SC样本下的提示结果。

ReAct在微调方面表现最佳

图3展示了在HotpotQA数据集上四种方法(标准方法、思维链、行动、推理-行动)通过提示/微调产生的规模效应。使用PaLM-8/62B时,由于难以从上下文示例中同时学习推理与行动,提示式推理-行动在四种方法中表现最差。但经过仅3000个示例的微调后,推理-行动即成为最佳方法:经微调的PaLM-8B推理-行动超越所有PaLM-62B提示方法,而经微调的PaLM-62B推理-行动更胜所有540B参数模型的提示方法。相比之下,对标准方法或思维链进行微调的效果显著弱于推理-行动或行动方法——前者本质上是教导模型记忆(可能包含虚构的)知识事实,后者则教会模型如何通过(推理和)行动从维基百科获取信息,这对知识推理而言是更具泛化性的技能。鉴于所有提示方法仍与领域内最先进方法存在显著差距(表1),我们认为使用更多人写数据进行微调可能是释放推理-行动潜力的更优路径。

在这里插入图片描述

图3:采用ReAct(我们的方法)及基线方法在HotPotQA数据集上提示与微调的扩展性结果。

4.决策任务

我们还在两项基于语言的交互式决策任务(ALFWorld和WebShop)上测试了ReAct。这两个任务环境复杂,要求智能体在稀疏奖励条件下执行长周期行动,因此需要通过推理来实现有效决策与探索。

ALFWorld

ALFWorld(Shridhar等人,2020b)(图1(2))是一个合成文本游戏,专为与具身ALFRED基准(Shridhar等人,2020a)对齐而设计。该环境包含6类任务,智能体需通过文本指令(如前往咖啡桌1、拿起纸张2、使用台灯1)在模拟家居环境中导航交互,以实现高层次目标(例如在台灯下检查纸张)。单个任务实例可能包含超过50个位置,专家策略需执行逾50步才能解决,这对智能体的子目标规划与追踪、系统性探索(如逐一检查所有书桌寻找台灯)能力提出挑战。特别值得注意的是,ALFWorld内置的核心挑战在于要求智能体推断常见家居物品的合理位置(如台灯通常置于书桌、架子或梳妆台上),这使得该环境非常适合大语言模型发挥其预训练获得的常识推理能力。

为构建ReAct提示,我们为每类任务从训练集中随机标注三条轨迹,每条轨迹包含以下四类稀疏思维注释:(1) 目标分解;(2) 子目标完成度追踪;(3) 下一子目标决策;(4) 基于常识推理物品位置及使用方式。ALFWorld所用提示示例详见附录C.4。遵循Shridhar等人(2020b)的实验设置,我们在任务特定配置下对134个未见过的评估游戏进行测试。为增强稳健性,我们通过3条标注轨迹中任取2条的所有排列组合,为每类任务构建6组提示。Act提示使用相同轨迹构建但不含思维注释——由于任务实例均从训练集随机选取,该方法不会对ReAct或Act产生偏向,从而为检验稀疏思维的重要性提供公平受控的对比条件。基线方面采用BUTLER(Shridhar等人,2020b),这是一个基于每类任务105条专家轨迹训练的模仿学习智能体。

WebShop

ReAct能否在嘈杂的真实语言环境中实现实际应用交互?我们研究WebShop(Yao等人,2022)——一个最新提出的在线购物网站环境,包含118万种真实商品和1.2万条人工指令。与ALFWorld不同,WebShop包含大量结构化和非结构化文本(例如从亚马逊抓取的商品标题、描述和选项),要求智能体根据用户指令(如“我需要带抽屉的床头柜,须采用镍合金饰面,价格低于140美元”)通过网络交互(如搜索“nightstand drawers”、选择“颜色: modern-nickel-white”或“返回搜索”等按钮)完成商品购买。该任务通过500条测试指令的平均得分(所选商品覆盖期望属性的百分比在所有任务中的均值)和成功率(所选商品满足所有要求的任务占比)进行评估。我们设计了包含搜索、选择商品、选择选项和购买等动作的Act提示模板,而ReAct提示模板还额外包含决定探索内容、购买时机以及商品选项与指令关联性的推理过程。示例提示见表6,模型预测结果见附录表10。我们同时与模仿学习(IL)方法进行对比。基于1,012条人工标注轨迹进行训练,并采用模仿学习+强化学习(IL+RL)方法额外使用10,587条训练指令进行增强训练。

在这里插入图片描述
在这里插入图片描述
表6:第4节中Webshop实验所使用的提示语集。左侧提示语用于Act模式,右侧提示语(附加推理步骤)用于ReAct模式。

我需要一瓶3盎司的亮柑橘味敏感肌肤专用除臭剂,价格需低于50美元。
操作:搜索[3盎司 明亮柑橘味 敏感肌肤止汗露] 观测结果:[返回搜索] 第1页(共50条结果)[下一页]

[B078GWRC1J] Earth Mama 明亮柑橘爽身粉 | 天然安全适用于敏感肌肤、孕期及哺乳期,含有机金盏花成分 3盎司 10.99美元
[B078GTKVXY] Earth Mama 清新姜味爽身粉 | 天然安全适用于敏感肌肤、孕期及哺乳期,含有机金盏花成分 3盎司 10.99美元
[B08KBVJ4XN] Barrel and Oak 无铝爽身粉(男士专用)| 植萃精油香型,24小时异味防护,雪松与广藿香融合配方,温和呵护敏感肌(山脉鼠尾草香型 2.7盎司x2支装)15.95美元

动作:点击[B078GWRC1J]
观察:[返回搜索][上一页] 香型 [混合香型][明亮柑橘][舒缓薰衣草][生姜][清新无香] 规格 [旅行装(4支组)][3盎司(单支装)][3盎司(双支装)]
Earth Mama明亮柑橘爽身粉 | 天然安全适用于敏感肌、孕期及哺乳期,含有机金盏花成分 3盎司
价格:$10.99 评分:暂无 [描述][特性][评论][立即购买]

动作:点击[明亮柑橘]
观测:您已点击明亮柑橘。
动作:点击[3盎司(1件装)]
观测:您已点击3盎司(1件装)。
动作:点击[立即购买]

操作:搜索[3盎司明亮柑橘味敏感肌肤止汗露] 观察:[返回搜索] 第1页(共50条结果)[下一页]

[B078GWRC1J] Earth Mama 明亮柑橘爽身粉 | 天然安全适用于敏感肌肤、孕期及哺乳期,含有机金盏花成分 3盎司 10.99美元
[B078GTKVXY] Earth Mama 清新姜味爽身粉 | 天然安全适用于敏感肌肤、孕期及哺乳期,含有机金盏花成分 3盎司 10.99美元
[B08KBVJ4XN] Barrel and Oak 无铝爽身粉(男士专用)| 植萃精油香型,24小时异味防护,雪松与广藿香融合配方,温和呵护敏感肌(山脉鼠尾草香型 2.7盎司x2支装)15.95美元

行动:思考[B078GWRC1J和B078GTKVXY是价格低于50美元的清新柑橘系除臭剂。我可以先查看B078GWRC1J。观察:好的。
动作:点击[B078GWRC1J]
观察:[返回搜索][上一页] 香型 [混合香型][明亮柑橘][舒缓薰衣草][生姜][清新无香] 规格 [旅行装(4支组)][3盎司(单支装)][3盎司(双支装)]
Earth Mama明亮柑橘爽身粉 | 天然安全适用于敏感肌、孕期及哺乳期,含有机金盏花成分 3盎司
价格:$10.99 评分:暂无 [描述][特性][评论][立即购买]

动作:思考[针对3盎司装的亮柑橘味敏感肌止汗露,该商品有‘亮柑橘’和‘3盎司(1件装)’选项,似乎值得购买。]
观察:好的。
动作:点击[亮柑橘]
观察:已选择亮柑橘香型。
动作:点击[3盎司(1件装)]
观察:已选择3盎司规格。
动作:点击[立即购买]

结果

ReAct在ALFWorld(表3)和Webshop(表4)两个实验环境中均优于Act方法。在ALFWorld环境中,表现最佳的ReAct实验组取得了71%的平均成功率,显著超过最优的Act(45%)与BUTLER(37%)实验组。值得注意的是,即便是表现最差的ReAct实验组(48%)也超越了两种对比方法的最佳实验结果。此外,在六组对照实验中ReAct相对Act的优势保持稳定,相对性能提升幅度介于33%至90%之间,平均提升达62%。定性分析表明,由于完全缺乏思维过程,Act方法无法正确将目标分解为子目标,或频繁丢失环境状态追踪。ReAct与Act的完整轨迹对比示例详见附录D.2.1与附录D.2.2。

在这里插入图片描述
表3:AlfWorld任务特定成功率(%)。BUTLER与BUTLERg结果取自Shridhar等人(2020b)论文表4。除BUTLER采用集束搜索外,所有方法均使用贪心解码。

在这里插入图片描述
表4:Webshop环境中的得分与成功率(SR)。IL/IL+RL方法数据引自Yao等人(2022)的研究成果。

在Webshop环境中,单次Act提示的表现已与IL及IL+RL方法相当。通过引入稀疏推理机制,ReAct实现了显著性能提升,较之前最佳成功率绝对提高了10%。通过案例验证,我们发现ReAct更倾向于通过推理来弥合噪声观察与操作之间的差距,从而准确识别与指令相关的商品及选项(例如“针对‘节省空间的客厅软凳’,该商品具备‘39x18x18英寸’和‘蓝色’选项,似乎值得购买”)。然而现有方法与人类专家的表现仍存在较大差距(表4),专家会进行更频繁的商品探索和查询重构,这对基于提示的方法仍构成挑战。

论内部推理与外部反馈之价值

据我们所知,ReAct是首个在闭环系统中将大型语言模型的推理与交互环境行动相结合的研究范例。最接近的前期工作当属Huang等人(2022b)提出的"内心独白"(IM)框架,该框架通过同名的"内心独白"机制驱动具身智能体的行为。然而,"内心独白"仅局限于对环境状态的观察及智能体为实现目标所需完成的任务。相比之下,ReAct用于决策的推理轨迹具有灵活性与稀疏性特点,能够根据不同任务需求诱发多种推理模式(参见第2节)。

为展示ReAct与IM方法之间的差异,并突显内部推理与简单响应外部反馈的重要性,我们采用类IM密集外部反馈的思维模式进行了消融实验。如表3所示,ReAct显著优于IM风格提示方法(ReAct-IM)(总体成功率71 vs. 53),在六项任务中的五项均保持稳定优势。定性分析发现,由于缺乏高层目标分解能力,ReAct-IM经常在判断子目标完成时机或确定后续子目标时出现错误。此外,由于常识推理能力的缺失,许多ReAct-IM轨迹难以确定物品在ALFWorld环境中的可能位置。这两类缺陷在ReAct范式中均可得到解决。关于ReAct-IM的更多细节见附录B.2,示例提示参见附录C.4,完整轨迹示例参见附录D.2.3。

5.相关工作

用于推理的语言模型

或许将大语言模型用于推理的最著名研究当属思维链(Wei等人,2022),该研究揭示了LLM能够构建专属的“思维流程”来解决问题。此后涌现出多项延续性研究,包括解决复杂任务的从简到难提示法(Zhou等人,2022)、零样本思维链(Kojima等人,2022)以及自洽性推理(Wang等人,2022a)。近期Madaan与Yazdanbakhsh(2022)系统研究了思维链的构成形式与结构,发现符号、模式与文本的存在对思维链效能具有关键影响。其他研究还拓展至超越简单提示的复杂推理架构,例如选择-推断框架(Creswell等人,2022)将推理过程划分为“选择”与“推断”两个步骤;STaR(Zelikman等人,2022)通过模型自生成正确原理对模型进行微调以实现推理过程自举;忠实推理(Creswell & Shanahan, 2022)将多步推理解构为三个由专用语言模型分别执行的步骤。类似方法如草稿链(Nye等人,2021)通过在中间计算步骤上微调语言模型,同样在多步计算问题上展现出改进效果。与这些方法相比,ReAct不仅执行孤立固定的推理,还将模型行动及其对应观察结果整合为连贯的输入流,使模型能进行更精准的推理并处理超越纯推理的任务(例如交互决策)。

决策制定语言模型

大型语言模型的强大能力已使其能够执行超越语言生成的任务,尤其在交互环境中将LLM作为策略模型用于决策的做法日益普及。WebGPT(Nakano等人,2021)使用语言模型与网页浏览器交互,通过浏览网页从ELI5(Fan等人,2019)中推导复杂问题的答案。与ReAct相比,WebGPT并未显式建模思维推理过程,而是依赖成本高昂的人类反馈进行强化学习。在对话建模领域,诸如BlenderBot(Shuster等人,2022b)和Sparrow(Glaese等人,2022)等聊天机器人,以及SimpleTOD(Hosseini-Asl等人,2020)等任务导向对话系统,也通过训练语言模型来实现API调用决策。这些方法与ReAct的差异在于都未显式考虑推理过程,且同样需要依赖昂贵的数据集和人工反馈收集进行策略学习。相比之下,ReAct以更低成本学习策略,因其决策过程仅需对推理流程进行语言描述即可实现。

大型语言模型在交互式与具身环境中的规划与决策应用日益增多。在此方面与ReAct最为相关的研究当属SayCan(Ahn等人,2022)和内心独白(Huang等人,2022b),这两项工作均利用LLM进行机器人动作规划与决策。SayCan通过提示LLM直接预测机器人可能执行的动作,再经由基于视觉环境的可供性模型进行重排序以得出最终预测。内心独白方法则通过引入同名的"内心独白"机制——即通过环境反馈注入实现——做出了进一步改进。据我们所知,内心独白是首个展示此类闭环系统的研究,ReAct正是在此基础上构建的。但我们认为内心独白并未真正构成内在思维机制,第4节将对此进行详细阐述。同时我们注意到,在交互决策过程中将语言作为语义丰富的输入已被证明在其他设定下同样有效(Abramson等人,2020;Karamcheti等人,2021;Huang等人,2022a;Li等人,2022)。越来越明显的趋势是,借助LLM的发展,语言作为基础认知机制将在交互与决策中发挥关键作用。此外,LLM的进步还推动了通用智能体(如Reed等人,2022的研究)的发展。

6.结论

我们提出了ReAct——一种简单而有效的方法,用于在大型语言模型中实现推理与行动的协同。通过在多跳问答、事实核查和交互式决策等多样化任务上的实验,我们证明ReAct能够产生具有可解释决策轨迹的卓越性能。尽管方法简洁,但动作空间庞大的复杂任务需要更多示范才能有效学习,这很容易超出上下文学习的输入长度限制。我们在HotpotQA数据集上探索了微调方法并取得初步成果,但通过更多高质量人工标注数据进行学习仍是提升性能的关键。通过多任务训练扩展ReAct,并结合强化学习等互补范式,有望打造更强大的智能体,进一步释放大型语言模型在更多应用领域的潜力。

7.附录

A.其他结果

A.1 GPT-3 实验

我们进行了额外的GPT-3(Brown等人,2020)实验,以验证ReAct提示方法在不同大语言模型间的普适性。如表5所示,GPT-3(text-davinci-002版本,贪婪解码)在HotpotQA和ALFWorld任务上持续优于PaLM-540B,这可能得益于其经过人类指令遵循的微调处理。这表明ReAct提示方法在不同大语言模型及不同任务中均具有有效性。相关实验代码详见:https://react-lm.github.io/。

A.2 REACT获取HotpotQA的最新知识

在轨迹检查过程中,我们发现有时ReAct与数据集标注不一致,因为标注本身可能已过时。如图4所示,当问题涉及酒店规模(该数据自HotpotQA构建后已发生变化)时:标准方法和思维链方法因幻觉产生错误答案;行动方法虽能进行真实网络交互,却因缺乏指导问答式网络交互的推理能力而失败。唯有ReAct能够从互联网检索最新信息并给出合理答案。因此,加强推理能力的融合或有助于提升当前基于互联网增强的语言模型(Nakano等,2021;Lazaridou等,2022;Shuster等,2022a)在时效性任务中的表现。

在这里插入图片描述
图4:另一个HotpotQA问题示例,其原始标注已过时。唯有ReAct通过现实网络交互与推理能力获得了最新答案。

A.3 ALFWorld中人在回路的交互行为校正

我们还探索了人与ReAct系统的在环交互机制,允许人类检查并编辑ReAct的推理轨迹。图5表明,通过简单删除第17步行动中的虚构语句并在第23步行动中添加若干提示,即可使ReAct大幅改变其行为模式,使其与人类思维编辑保持同步并成功完成任务。从人类视角来看,解决此类任务的难度显著降低——从需要输入数十个操作简化为仅需编辑少量思维片段,这为新型人机协作模式创造了可能。我们特别指出,此类即时策略编辑对于Act及以往的强化学习方法而言,这具有挑战性——人类无法直接修改模型参数,而仅改变少数动作可能无法影响模型的整体行为。该范式也超越了黄等人(2022b)研究中通过人类对话更新目标或子目标的方式:虽然编辑ReAct思维可以实现上述功能,它还能修正模型的内在信念、推理模式,或利用灵活思维空间支持的任何要素来提升任务解决能力。我们认为这是实现人类对齐的一个激动人心的方向,并将更系统性的研究留作未来工作。

在这里插入图片描述
图5:AlfWorld中采用ReAct进行人机协同行为校正的示例。(a)由于存在幻觉思维(动作17),ReAct轨迹执行失败。(b)通过人工仅修改两个思维节点(动作17、23),ReAct轨迹即可生成理想的推理路径与动作序列并成功完成任务。

B 实验详情

B.1 HotpotQA微调细节

在所有微调过程中,我们均采用64的批次大小。对于PaLM-8B模型,ReAct与Act方法微调4,000步,Standard与CoT方法微调2,000步;对于PaLM-62B模型,ReAct与Act方法微调4,000步,Standard与CoT方法微调1,000步。我们发现ReAct与Act方法通常能通过更多训练步骤(及更多训练数据)获得提升,而Standard与CoT方法在微调后很快会出现性能衰退。

B.2 ALFWORLD 图像描述式细节说明

在IM式消融实验中,我们使用与ReAct相同的专家轨迹,并在这些轨迹中重新标注了密集的外部反馈思考,这使得ReAct-IM仅能思考:(1)分解当前目标;(2)当前需要完成的子目标。具体而言,ReAct-IM缺乏以下思考能力:(1)判断子目标何时完成;(2)确定下一个子目标应为哪些;(3)引导大语言模型调用其内部预训练知识来识别环境中物品的可能位置。

C 提示词

C.1 HOTPOTQA

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

C.2 FEVER

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

C.3 WEBSHOP

表6:第4节中Webshop实验所使用的提示模板。左侧提示用于Act模式,右侧提示(增加推理步骤)用于ReAct模式。

在这里插入图片描述
在这里插入图片描述

C.4 ALFWORLD

表7:ALFWorld清洁任务上的行动提示。未提供思考内容。

在这里插入图片描述
你正处于房间中央。快速环顾四周,可见橱柜13、橱柜12、橱柜11、橱柜10、橱柜9、橱柜8、橱柜7、橱柜6、橱柜5、橱柜4、橱柜3、橱柜2、橱柜1、咖啡机1、操作台1、餐桌1、抽屉1、冰箱1、垃圾桶1、微波炉1、架子3、架子2、架子1、水槽1、灶头4、灶头3、灶头2、灶头1和烤面包机1。当前需执行:将洁净生菜放置于餐桌。

走向冰箱1
冰箱1处于关闭状态。
打开冰箱1
你打开了冰箱1。冰箱1现已开启。内部可见杯子3、鸡蛋2、土豆3和土豆2。
走向餐桌1
餐桌1上可见苹果1、面包1、黄油刀2、杯子2、叉子2、刀具2、刀具1、长柄勺1、生菜1、马克杯2、马克杯1、平底锅2、胡椒瓶1、锅铲3、番茄2和番茄1。
从餐桌1拿取生菜1
你从餐桌1上拿起了生菜1。
走向水槽1
水槽1上可见苹果2、长柄勺2、勺子1和番茄3。
使用水槽1清洁生菜1
你用水槽1清洗了生菜1。
思考:现已完成生菜(1)的清洗。接下来需将其放置于餐桌1。
走向餐桌1
餐桌1上可见苹果1、面包1、黄油刀2、杯子2、叉子2、刀具2、刀具1、长柄勺1、马克杯2、马克杯1、平底锅2、胡椒瓶1、锅铲3、番茄2和番茄1。
将生菜1放置于餐桌1
你把生菜1放置在了餐桌1上。

表8:ALFWorld清洁任务上的ReAct提示示例

在这里插入图片描述
你正处于房间中央。快速环顾四周,可见橱柜13、橱柜12、橱柜11、橱柜10、橱柜9、橱柜8、橱柜7、橱柜6、橱柜5、橱柜4、橱柜3、橱柜2、橱柜1、咖啡机1、操作台1、餐桌1、抽屉1、冰箱1、垃圾桶1、微波炉1、架子3、架子2、架子1、水槽1、灶头4、灶头3、灶头2、灶头1及烤面包机1。当前任务:将洁净生菜放置于餐桌。

思考:需先找到生菜,通过水槽清洗,最后放置于餐桌。
思考:生菜可能存放于冰箱(1)、餐桌(1)、水槽(1)、灶头(1-3)或橱柜(1-13)。应从冰箱1开始逐一排查。

走向冰箱1
冰箱1处于关闭状态。
打开冰箱1
已开启冰箱1。内部存有杯子3、鸡蛋2、土豆3与土豆2。

走向餐桌1
餐桌表面可见苹果1、面包1、黄油刀2、杯子2、叉子2、刀具2、刀具1、长柄勺1、生菜1、马克杯2、马克杯1、平底锅2、胡椒瓶1、锅铲3、番茄2与番茄1。

思考:已定位生菜(1),需进行拾取。
从餐桌1拾取生菜1
你从餐桌1拿起生菜1。

思考:已获取生菜(1)。需前往水槽1进行清洗。
走向水槽1
水槽1表面放置有苹果2、长柄勺2、汤匙1与番茄3。
使用水槽1清洗生菜1
你通过水槽1完成了生菜1的清洗。

思考:生菜(1)已清洁完毕。需将其放置于餐桌1。
走向餐桌1
餐桌1表面现有苹果1、面包1、黄油刀2、杯子2、叉子2、刀具2、刀具1、长柄勺1、马克杯2、马克杯1、平底锅2、胡椒瓶1、锅铲3、番茄2与番茄1。
将生菜1放置于餐桌1
你已将生菜1安置在餐桌1上。

表9:ALFWorld清洁任务中的ReAct-IM提示模板

在这里插入图片描述
你正身处房间中央。快速环顾四周,可见橱柜13、橱柜12、橱柜11、橱柜10、橱柜9、橱柜8、橱柜7、橱柜6、橱柜5、橱柜4、橱柜3、橱柜2、橱柜1、咖啡机1、操作台1、餐桌1、抽屉1、冰箱1、垃圾桶1、微波炉1、架子3、架子2、架子1、水槽1、灶头4、灶头3、灶头2、灶头1和烤面包机1。当前需完成:将洁净生菜放置于餐桌。

思考:为完成任务,我需要找到并获取生菜,通过水槽进行清洁,最后放置于餐桌。确认。
思考:首先需要找到生菜。确认。
前往冰箱1
冰箱1处于关闭状态。
思考:首先需要找到生菜。确认。
打开冰箱1
你打开了冰箱1。冰箱1现已开启,内部可见杯子3、鸡蛋2、土豆3与土豆2。
思考:首先需要找到生菜。确认。
前往餐桌1
餐桌1上可见苹果1、面包1、黄油刀2、杯子2、叉子2、刀具2、刀具1、长柄勺1、生菜1、马克杯2、马克杯1、平底锅2、胡椒瓶1、锅铲3、番茄2与番茄1。
思考:首先需要找到生菜。确认。
从餐桌1拿取生菜1
你从餐桌1拿起了生菜1。
思考:需要使用水槽1清洁该生菜(1)。确认。
前往水槽1
水槽1上可见苹果2、长柄勺2、勺子1与番茄3。
思考:需要使用水槽1清洁该生菜(1)。确认。
用水槽1清洁生菜1
你使用水槽1清洁了生菜1。
思考:需要将清洁后的生菜(1)放置于餐桌1。确认。
前往餐桌1
餐桌1上可见苹果1、面包1、黄油刀2、杯子2、叉子2、刀具2、刀具1、长柄勺1、马克杯2、马克杯1、平底锅2、胡椒瓶1、锅铲3、番茄2与番茄1。
思考:需要将清洁后的生菜(1)放置于餐桌1。确认。
将生菜1放置于餐桌1
你将生菜1放置于餐桌1。

D.轨迹

D.1 FEVER TRAJECTORIES

我们在下方提供了一些由ReAct、思维链和Act在FEVER开发集中随机选取的若干示例生成的行为轨迹。为节省空间,搜索结果已省略。

在这里插入图片描述
ReAct
声明:百慕大三角是太平洋中一个模糊定义的区域。思考1:我需要搜索百慕大三角并确认其是否位于太平洋。行动1:搜索[百慕大三角]观察1:据传为闹鬼地点…思考2:观察结果显示其位于北大西洋西部,因此不在太平洋。行动2:结束[反驳]观察2:回合结束

Act
声明:百慕大三角是太平洋中一个模糊定义的区域。行动1:搜索[百慕大三角]观察1:据传为闹鬼地点:…行动2:结束[反驳]观察2:回合结束

CoT
声明:百慕大三角是太平洋中一个模糊定义的区域。思考:让我们逐步分析。百慕大三角是大西洋中一个模糊定义的区域。太平洋并非大西洋。答案:反驳

在这里插入图片描述
ReAct
声明:《幽灵公主》是一部电影。思考1:我需要搜索《幽灵公主》并确认它是否为电影。行动1:搜索[幽灵公主] 观察1:幽灵公主…… 思考2:根据观察结果,《幽灵公主》被确认为电影。行动2:完成[支持] 观察2:片段结束

Act
声明:《幽灵公主》是一部电影。行动1:搜索[幽灵公主] 观察1:幽灵公主…… 行动2:完成[支持] 观察2:片段结束

CoT
声明:《幽灵公主》是一部电影。思考:让我们逐步分析。《幽灵公主》是一部电影,而电影属于影片范畴。答案:支持

在这里插入图片描述
ReAct
声明:联盟号曾是美国太空计划的一部分。
思考1:我需要搜索联盟号,确认它是否属于美国太空计划。
行动1:搜索[联盟号]
观察1:联盟号是音译…
思考2:结果未提及美国太空计划,需搜索“美国太空计划”进行验证。
行动2:搜索[美国太空计划]
观察2:太空政策…
思考3:结果未提及联盟号,无法确认声明真实性。
行动3:结束[信息不足]
观察3:流程终止

Act
声明:联盟号曾是美国太空计划的一部分。
行动1:搜索[联盟号]
观察1:联盟号是音译…
行动2:结束[信息不足]
观察2:流程终止

CoT
声明:联盟号曾是美国太空计划的一部分。
思考:逐步推理。联盟号是俄罗斯航天器,美国太空计划指NASA。NASA与俄罗斯曾在国际空间站合作。
结论:支持

在这里插入图片描述
ReAct
声明:《心灵访客》是一部2010年制作的美国电影。思考1:我需要搜索《心灵访客》并确认它是否为2010年制作的美国电影。行动1:搜索[心灵访客] 观察1:《心灵访客》… 思考2:观察结果显示这是一部2007年制作的美国电影,因此并非2010年制作。行动2:完成[反驳] 观察2:流程结束

Act
声明:《心灵访客》是一部2010年制作的美国电影。行动1:搜索[心灵访客] 行动2:完成[支持] 观察2:流程结束

CoT
声明:《心灵访客》是一部2010年制作的美国电影。思考:让我们逐步分析。首先,《心灵访客》是美国电影吗?是的。其次,它是2010年制作的吗?是的。答案:支持

D.2 ALFWORLD TRAJECTORIES

我们以ALFWorld游戏中的同一场景(pick_clean_then_place_in_recep-Knife-None-CounterTop-10/ trial_T20190909_110445_675754)为例,分别展示ReAct、Act和ReAct-IM三种方法的运行轨迹。

D.2.1 REAC T TRAJECTORY

ReAct能够正确找到刀具,将其清洗干净,然后放置在台面上。

在这里插入图片描述
你正处于房间中央。快速环顾四周,可见六个橱柜(编号1-6)、一台咖啡机、三个台面(编号1-3)、三个抽屉(编号1-3)、一台冰箱、一个垃圾桶、一台微波炉、三个架子(编号1-3)、一个水槽、四个炉头(编号1-4)和一台烤面包机。当前需执行:将清洁的刀具置于台面。

思考:需先寻找刀具,通过水槽清洁后放置于台面。开始逐项搜寻,优先检查橱柜1。
走向橱柜1
橱柜1表面有碗具1。
走向橱柜2
橱柜2处于关闭状态。
走向橱柜3
橱柜3表面有玻璃瓶1。
走向橱柜4
橱柜4表面有马克杯1。
走向橱柜5
橱柜5处于关闭状态。
走向橱柜6
橱柜6处于关闭状态。
走向抽屉1
抽屉1处于关闭状态。
走向抽屉2
抽屉2处于关闭状态。
走向抽屉3
抽屉3处于关闭状态。
走向台面1
台面1表面有生菜2、马克杯2、胡椒瓶1及汤匙2。
走向台面2
台面2表面有茶杯1、洗碗海绵1、玻璃瓶3、刀具1、餐盘2、马铃薯3及雕像1。
思考:已发现刀具1,接下来需获取该物品。
从台面2取走刀具1
你从台面2拾起了刀具1。
思考:已获取刀具1,接下来需前往水槽1进行清洁。
走向水槽1
水槽1表面有叉子3、生菜3及锅铲2。
使用水槽1清洁刀具1
你利用水槽1完成了刀具1的清洁。
思考:已完成刀具清洁,接下来需将其放置于台面1。
走向台面1
台面1表面有生菜2、马克杯2、胡椒瓶1及汤匙2。
将刀具1放置于台面1
你已将刀具1安置在台面1上。

D.2.2 ACT轨迹

Act能够正确找到刀具,但在实际前往水槽前就试图在水槽中清洗它。此后模型无法恢复执行状态,陷入重复相同指令序列的循环。若采用ReAct机制,既有思维流程会明确识别刀具已被拿取,并确定下一个子目标应当是前往水槽进行清洗。

在这里插入图片描述
你正处于房间中央。快速环顾四周,可见橱柜6、橱柜5、橱柜4、橱柜3、橱柜2、橱柜1、咖啡机1、操作台3、操作台2、操作台1、抽屉3、抽屉2、抽屉1、冰箱1、垃圾桶1、微波炉1、搁架3、搁架2、搁架1、水槽1、灶眼4、灶眼3、灶眼2、灶眼1以及烤面包机1。当前需执行:将洁净刀具置于操作台。

走向操作台1
操作台1上可见生菜2、马克杯2、胡椒瓶1及勺子2。

走向操作台2
操作台2上可见杯子1、洗碗海绵1、玻璃瓶3、刀具1、盘子2、土豆3与雕像1。

从操作台2拾取刀具1
你从操作台2拿起了刀具1。

走向操作台1
操作台1上可见生菜2、马克杯2、胡椒瓶1及勺子2。

用水槽1清洁刀具1
未触发任何效果。

走向操作台3
操作台3上可见面包3、黄油刀2、手机1、信用卡1、叉子2、盆栽1、刀具2、锅铲1、雕像3、番茄3、番茄2、番茄1及花瓶2。

从操作台3拾取刀具2
未触发任何效果。

走向操作台2
操作台2上可见杯子1、洗碗海绵1、玻璃瓶3、盘子2、土豆3与雕像1。

从操作台2拾取刀具1
未触发任何效果。

走向操作台1
操作台1上可见生菜2、马克杯2、胡椒瓶1及勺子2。

用水槽1清洁刀具1
未触发任何效果。

走向操作台3
操作台3上可见面包3、黄油刀2、手机1、信用卡1、叉子2、盆栽1、刀具2、锅铲1、雕像3、番茄3、番茄2、番茄1及花瓶2。

从操作台3拾取刀具2
未触发任何效果。

走向操作台2
操作台2上可见杯子1、洗碗海绵1、玻璃瓶3、盘子2、土豆3与雕像1。

从操作台2拾取刀具1
未触发任何效果。

走向操作台1
操作台1上可见生菜2、马克杯2、胡椒瓶1及勺子2。

用水槽1清洁刀具1
未触发任何效果。

D.2.3 REAC T-IM 轨迹

ReAct-IM 能够正确找到刀具,但无法完成清洗操作。随后大型语言模型在尝试将刀具放置于台面时陷入停滞。一个潜在问题在于其产生了错误思维:“我需要找一把干净刀具”,这似乎误导模型认为刀具已完成清洗。在ReAct框架中,这一系列子目标本应通过每个具体思维步骤得到准确捕捉。

在这里插入图片描述
你正处于房间中央。快速环顾四周,可见橱柜6、橱柜5、橱柜4、橱柜3、橱柜2、橱柜1、咖啡机1、操作台3、操作台2、操作台1、抽屉3、抽屉2、抽屉1、冰箱1、垃圾桶1、微波炉1、置物架3、置物架2、置物架1、水槽1、灶头4、灶头3、灶头2、灶头1和烤面包机1。当前需执行:将洁净刀具置于操作台。

思考:要完成此任务,需先找到并取得洁净刀具,再将其放置于操作台。确认。
思考:需要寻找洁净刀具。确认。
前往操作台1
在操作台1上,可见生菜2、马克杯2、胡椒瓶1和勺子2。
思考:需要寻找洁净刀具。确认。
前往操作台2
在操作台2上,可见杯子1、洗碗海绵1、玻璃瓶3、刀具1、盘子2、土豆3和雕像1。
思考:需要寻找洁净刀具。确认。
从操作台2拾取刀具1
你从操作台2拿起了刀具1。
思考:需将此刀具(1)放置于操作台1。确认。
前往操作台1
在操作台1上,可见生菜2、马克杯2、胡椒瓶1和勺子2。
思考:需将此刀具(1)放置于操作台1。确认。
将刀具1放置于操作台1
你已将刀具1放置在操作台1上。
思考:需将此刀具(1)放置于操作台1。确认。
将刀具1放置于操作台1
无任何变化。
思考:需将此刀具(1)放置于操作台1。确认。
将刀具1放置于操作台1
无任何变化。
思考:需将此刀具(1)放置于操作台1。确认。
将刀具1放置于操作台1
无任何变化。
思考:需将此刀具(1)放置于操作台1。确认。
将刀具1放置于操作台1
无任何变化。
思考:需将此刀具(1)放置于操作台1。确认。
将刀具1放置于操作台1
无任何变化。
思考:需将此刀具(1)放置于操作台1。确认。

D.3 网络商店轨迹

表10:由Act和ReAct预测的Webshop示例轨迹。与Act相比,ReAct通过推理寻找满足所有目标属性的商品。
在这里插入图片描述
在这里插入图片描述

E.更多分析

E.1 成功与失效模式分析

我们提供了与第3.3节中成功与错误模式分析相对应的若干示例。为节省篇幅,已省略搜索结果及非代表性步骤。

在这里插入图片描述

ReAct
问题:作者David Chanoff曾与一位美国海军上将合作,这位上将是在哪位总统任内担任驻英国大使的?
思考1:我需要搜索David Chanoff并找出与他合作的美国海军上将。
行动1:搜索[David Chanoff]
观察1:David Chanoff是著名作家…
行动2:搜索[William J. Crowe]
观察2:William J. Crowe是…
思考3:William J. Crowee在比尔·克林顿总统任内担任驻英国大使。因此答案是比尔·克林顿。
行动3:完成[比尔·克林顿]
观察3:流程结束

思维链
问题:哪支队伍代表亚利桑那州某大学参加了覆盖美国西部广阔区域(包括亚利桑那州、加利福尼亚州和新墨西哥州)的联盟赛事?
思考过程:逐步分析。代表亚利桑那州某大学参加该联盟赛事的队伍是亚利桑那州立大学太阳魔队。
答案:亚利桑那州立大学太阳魔队

在这里插入图片描述

ReAct
问题:棋盘游戏《圣马可》和《时空恋旅人》哪个先问世?
思考1:我需要搜索《圣马可》和《时空恋旅人》,确认发布时间先后。
行动1:搜索[San Marco]
观察1:圣马可区是威尼斯的一个街区…该建筑建于威尼斯。
思考2:圣马可实为威尼斯的一个行政区。接下来需要搜索《时空恋旅人》。
行动2:搜索[About Time]
观察2:未找到[About Time]相关结果。类似条目有[…]。
思考3:《时空恋旅人》是2013年上映的电影。因此《圣马可》问世更早。
行动3:完成[San Marco]
观察3:流程结束

思维链
问题:范德堡大学与埃默里大学何者创办更早?
思考过程:逐步分析。范德堡大学成立于1873年,埃默里大学成立于1836年。1873年(范德堡大学)> 1836年(埃默里大学),因此范德堡大学创办更早。
答案:埃默里大学

在这里插入图片描述

ReAct
问题:在《发胶星梦》中与哈维·菲尔斯坦、琳达·哈特、迪克·拉特萨、克拉克·索雷尔、玛丽·邦德·戴维斯、劳拉·贝尔·邦迪、马修·莫里森、科里·雷诺兹、玛丽莎·贾雷特·温诺克共同出演的女演员中间名是什么?
思考1:我需要先检索哈维·菲尔斯坦、琳达·哈特、迪克·拉特萨、克拉克·索雷尔、玛丽·邦德·戴维斯、劳拉·贝尔·邦迪、马修·莫里森、科里·雷诺兹、玛丽莎·贾雷特·温诺克的相关信息,找出在《发胶星梦》中与他们共同出演的女演员,然后查询她的中间名。
行动1:搜索[哈维·菲尔斯坦]
观察1:哈维·福布斯·菲尔斯坦…
思考2:哈维·菲尔斯坦是演员、剧作家兼编剧。我需要继续检索琳达·哈特…
行动2:搜索[琳达·哈特]…

思维链
问题:丹尼·格林和詹姆斯·沃西谁更年长?
思考过程:逐步分析。丹尼·格林出生于1987年,詹姆斯·沃西出生于1961年。1987年(丹尼·格林)> 1961年(詹姆斯·沃西),因此丹尼·格林更年长。
答案:丹尼·格林

在这里插入图片描述

ReAct
问题:与女神弗丽嘉相关的女神包含哪些传说?
思考1:我需要搜索“goddess frigg”并找到其关联女神。
行动1:搜索[goddess frigg]
观察1:未找到“goddess frigg”相关结果。类似条目:[‘弗丽嘉’, ‘弗丽嘉与芙蕾雅同源假说’, ‘芙蕾雅(章节:与弗丽嘉及其他女神和人物的关系)’, ‘埃尔(重定向自埃尔女神)’, ‘巴德尔’]。
思考2:我需要改为搜索弗丽嘉…

在这里插入图片描述

思维链
问题:位于布朗克斯的机构出版的科学期刊首次发行是哪一年?
思考过程:让我们逐步分析。位于布朗克斯的机构出版的科学期刊首次发行年份是1916年。
答案:1916(标注:1909)

在这里插入图片描述

ReAct
问题:设计独裁者游戏的男性是何国籍?
思考1:我需要搜索独裁者游戏,找到其设计者,再确认其国籍。
行动1:搜索[独裁者游戏]
观察1:独裁者游戏是社会心理学与经济学中常用的实验工具…
行动3:搜索[阿莫斯·特沃斯基]
观察3:阿莫斯·内森·特沃斯基…
思考4:阿莫斯·特沃斯基是以色列认知与数学心理学家。因此设计独裁者游戏的男性是以色列人。
行动4:完成[以色列人](标注:以色列裔美国人)

COT
问题:来自加州斯托克顿的库尔特·富勒出演了由史蒂夫·弗兰克斯创作的哪部美国侦探喜剧剧情电视系列剧?
思路:逐步推理。来自加州斯托克顿的库尔特·富勒曾出演《灵异妙探》。该剧是由史蒂夫·弗兰克斯创作的美国侦探喜剧剧情电视系列剧。
答案:《灵异妙探》(标注:《灵异妙探》是一部美国侦探喜剧剧情剧)

8.引用文献

  • Josh Abramson, Arun Ahuja, Iain Barr, Arthur Brussee, Federico Carnevale, Mary Cassin, Rachita Chhaparia, Stephen Clark, Bogdan Damoc, Andrew Dudzik, Petko Georgiev, Aurelia Guy, Tim Harley, Felix Hill, Alden Hung, Zachary Kenton, Jessica Landon, Timothy Lillicrap, Kory Mathewson, Sonˇa Mokrá, Alistair Muldal, Adam Santoro, Nikolay Savinov, Vikrant Varma, Greg Wayne, Duncan Williams, Nathaniel Wong, Chen Yan, and Rui Zhu. Imitating interactive intelligence, 2020. URL https://arxiv.org/abs/2012.05672.
  • Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Chuyuan Fu, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Daniel Ho, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Eric Jang, Rosario Jauregui Ruano, Kyle Jeffrey, Sally Jesmonth, Nikhil J Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Kuang-Huei Lee, Sergey Levine, Yao Lu, Linda Luu, Carolina Parada, Peter Pastor, Jornell Quiambao, Kanishka Rao, Jarek Rettinghouse, Diego Reyes, Pierre Sermanet, Nicolas Sievers, Clayton Tan, Alexander Toshev, Vincent Vanhoucke, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Mengyuan Yan, and Andy Zeng. Do as i can, not as i say: Grounding language in robotic affordances, 2022. URL https://arxiv.org/abs/2204.01691.
  • Ben Alderson-Day and Charles Fernyhough. Inner speech: development, cognitive functions, phenomenology, and neurobiology. Psychological bulletin, 141(5):931, 2015.
  • Alan Baddeley. Working memory. Science, 255(5044):556–559, 1992.
  • Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
  • Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. Palm: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311, 2022.
  • Antonia Creswell and Murray Shanahan. Faithful reasoning using large language models, 2022. URL https://arxiv.org/abs/2208.14271.
  • Antonia Creswell, Murray Shanahan, and Irina Higgins. Selection-inference: Exploiting large language models for interpretable logical reasoning, 2022. URL https://arxiv.org/abs/ 2205.09712.
  • Angela Fan, Yacine Jernite, Ethan Perez, David Grangier, Jason Weston, and Michael Auli. ELI5: Long form question answering. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pp. 3558–3567, Florence, Italy, July 2019. Association for Computational Linguistics. doi: 10.18653/v1/P19-1346. URL https://aclanthology.org/ P19-1346.
  • Charles Fernyhough. Vygotsky, luria, and the social brain. Self and social regulation: Social interaction and the development of social understanding and executive functions, pp. 56–79, 2010.
  • Amelia Glaese, Nat McAleese, Maja Trebacz, John Aslanides, Vlad Firoiu, Timo Ewalds, Maribeth Rauh, Laura Weidinger, Martin Chadwick, Phoebe Thacker, Lucy Campbell-Gillingham, Jonathan Uesato, Po-Sen Huang, Ramona Comanescu, Fan Yang, Abigail See, Sumanth Dathathri, Rory Greig, Charlie Chen, Doug Fritz, Jaume Sanchez Elias, Richard Green, Soˇna Mokrá, Nicholas Fernando, Boxi Wu, Rachel Foley, Susannah Young, Iason Gabriel, William Isaac, John Mellor, Demis Hassabis, Koray Kavukcuoglu, Lisa Anne Hendricks, and Geoffrey Irving. Improving alignment of dialogue agents via targeted human judgements, 2022. URL https://storage.googleapis.com/deepmind-media/DeepMind. com/Authors-Notes/sparrow/sparrow-final.pdf.
  • Ehsan Hosseini-Asl, Bryan McCann, Chien-Sheng Wu, Semih Yavuz, and Richard Socher. A simple language model for task-oriented dialogue. Advances in Neural Information Processing Systems, 33:20179–20191, 2020.
  • Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. arXiv preprint arXiv:2201.07207, 2022a.
  • Wenlong Huang, Fei Xia, Ted Xiao, Harris Chan, Jacky Liang, Pete Florence, Andy Zeng, Jonathan Tompson, Igor Mordatch, Yevgen Chebotar, et al. Inner monologue: Embodied reasoning through planning with language models. arXiv preprint arXiv:2207.05608, 2022b.
  • Siddharth Karamcheti, Megha Srivastava, Percy Liang, and Dorsa Sadigh. Lila: Language-informed latent actions. In CoRL, pp. 1379–1390, 2021. URL https://proceedings.mlr.press/ v164/karamcheti22a.html.
  • Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916, 2022.
  • Angeliki Lazaridou, Elena Gribovskaya, Wojciech Stokowiec, and Nikolai Grigorev. Internetaugmented language models through few-shot prompting for open-domain question answering. arXiv preprint arXiv:2203.05115, 2022.
  • Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33: 9459–9474, 2020.
  • Shuang Li, Xavier Puig, Chris Paxton, Yilun Du, Clinton Wang, Linxi Fan, Tao Chen, De-An Huang, Ekin Akyürek, Anima Anandkumar, Jacob Andreas, Igor Mordatch, Antonio Torralba, and Yuke Zhu. Pre-trained language models for interactive decision-making, 2022. URL https: //arxiv.org/abs/2202.01771.
  • Aleksandr Romanovich Luria. Ls vygotsky and the problem of localization of functions. Neuropsychologia, 3(4):387–392, 1965.
  • Aman Madaan and Amir Yazdanbakhsh. Text and patterns: For effective chain of thought, it takes two to tango, 2022. URL https://arxiv.org/abs/2209.07686.
  • Vincent Micheli and François Fleuret. Language models are few-shot butlers. arXiv preprint arXiv:2104.07972, 2021.
  • Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, and John Schulman. Webgpt: Browser-assisted question-answering with human feedback, 2021. URL https://arxiv. org/abs/2112.09332.
  • Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, Charles Sutton, and Augustus Odena. Show your work: Scratchpads for intermediate computation with language models, 2021. URL https://arxiv.org/abs/2112.00114.
  • Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards, Nicolas Heess, Yutian Chen, Raia Hadsell, Oriol Vinyals, Mahyar Bordbar, and Nando de Freitas. A generalist agent, 2022. URL https: //arxiv.org/abs/2205.06175.
  • Mohit Shridhar, Jesse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, and Dieter Fox. Alfred: A benchmark for interpreting grounded instructions for everyday tasks. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 10740–10749, 2020a.
  • Mohit Shridhar, Xingdi Yuan, Marc-Alexandre Côté, Yonatan Bisk, Adam Trischler, and Matthew Hausknecht. Alfworld: Aligning text and embodied environments for interactive learning. arXiv preprint arXiv:2010.03768, 2020b.
  • Kurt Shuster, Mojtaba Komeili, Leonard Adolphs, Stephen Roller, Arthur Szlam, and Jason Weston. Language models that seek for knowledge: Modular search & generation for dialogue and prompt completion. arXiv preprint arXiv:2203.13224, 2022a.
  • Kurt Shuster, Jing Xu, Mojtaba Komeili, Da Ju, Eric Michael Smith, Stephen Roller, Megan Ung, Moya Chen, Kushal Arora, Joshua Lane, Morteza Behrooz, William Ngan, Spencer Poff, Naman Goyal, Arthur Szlam, Y-Lan Boureau, Melanie Kambadur, and Jason Weston. Blenderbot 3: a deployed conversational agent that continually learns to responsibly engage, 2022b. URL https://arxiv.org/abs/2208.03188.
  • James Thorne, Andreas Vlachos, Christos Christodoulopoulos, and Arpit Mittal. Fever: a large-scale dataset for fact extraction and verification. arXiv preprint arXiv:1803.05355, 2018.
  • Lev S Vygotsky. Thinking and speech. The collected works of LS Vygotsky, 1:39–285, 1987.
  • Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. Self-consistency improves chain of thought reasoning in language models, 2022a. URL https://arxiv.org/abs/2203.11171.
  • Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, and Denny Zhou. Rationale-augmented ensembles in language models. arXiv preprint arXiv:2207.00747, 2022b.
  • Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022.
  • Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W Cohen, Ruslan Salakhutdinov, and Christopher D Manning. Hotpotqa: A dataset for diverse, explainable multi-hop question answering. arXiv preprint arXiv:1809.09600, 2018.
  • Shunyu Yao, Rohan Rao, Matthew Hausknecht, and Karthik Narasimhan. Keep CALM and explore: Language models for action generation in text-based games. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 8736–8754, Online, November 2020. Association for Computational Linguistics. doi: 10.18653/v1/2020.emnlp-main.704. URL https://aclanthology.org/2020.emnlp-main.704.
  • Shunyu Yao, Howard Chen, John Yang, and Karthik Narasimhan. Webshop: Towards scalable real-world web interaction with grounded language agents. arXiv preprint arXiv:2207.01206, 2022.
  • Eric Zelikman, Yuhuai Wu, Jesse Mu, and Noah D. Goodman. Star: Bootstrapping reasoning with reasoning, 2022. URL https://arxiv.org/abs/2203.14465.
  • Denny Zhou, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, Olivier Bousquet, Quoc Le, and Ed Chi. Least-to-most prompting enables complex reasoning in large language models, 2022. URL https://arxiv.org/abs/2205.10625.
  • Yunchang Zhu, Liang Pang, Yanyan Lan, Huawei Shen, and Xueqi Cheng. Adaptive information seeking for open-domain question answering. arXiv preprint arXiv:2109.06747, 2021.
http://www.dtcms.com/a/539867.html

相关文章:

  • 攻克兼容、安全、零中断的“不可能三角”:电科金仓异构多活架构交出集团化医院信创最佳答卷!
  • Duckdb rusty_sheet插件使用心得
  • PyTorch torch.ones()张量创建详解
  • 菜鸟教程网站建设lazy load wordpress
  • 湖南 中小企业 网站建设百度做网站推广
  • 基于小波变换的图像阈值去噪MATLAB实现
  • 网站建设怎么收费网站优化有哪些类型
  • GitHub 与 Gitee 多平台 SSH Key 配置指南
  • 中原郑州网站建设中国建设银行信用卡
  • c++学习学习学习
  • 可做影视网站的服务器黄骗免费网站
  • 做电影类网站在线做头像网站有哪些
  • 怎么创建网站 免费的高级seo课程
  • 删除wordpress修订版本号长沙seo网站建设袁飞最好
  • 天津中冀建设集团有限公司网站中企动力做的网站好吗
  • 公司网站建设技术方案c#网站开发需要的技术
  • 网络营销渠道具有交互性的特点企业seo排名优化
  • 国外做的比较好的展台网站怎样清除单位域名 网站或互联网网址
  • 做一个网站得多少钱做网站用什么语音
  • 香河县最新消息免费seo网站推荐一下
  • 公司内网网站建设网页制作与设计是前端吗
  • 模板 网站iis wordpress index.php
  • 网站访问统计js代码做国外衣服的网站
  • 山西高端网站建设网络游戏排行榜百度风云榜
  • 网站后台上传文件给公司制作网站吗
  • 东莞最好的网站建设价格低网上买卖交易平台有哪些
  • 泉州网站建设方案外包百度手机端排名
  • 淘宝客网站可以备案吗百度指数可以用来干什么
  • 北京建设官方网站中国高清vpswindows在线观看
  • 所有网站打不开建设网站用什么