当前位置: 首页 > news >正文

论文见解:REACT:在语言模型中协同推理和行动

摘要

在这里插入图片描述

我阅读了普林斯顿大学和谷歌大脑研究人员的《REACT:在语言模型中协同推理和行动》。该论文发表在 ICLR 2023 上,讨论了一种 LLM 提示方法,该方法帮助 LLM 在需要推理和行动的复杂环境中表现良好。
人类可以轻松地将以任务为导向的行动与口头推理结合起来。行动和推理之间的这种协同作用使人类能够快速学习新任务,并针对看不见的情况做出稳健的决策。

一、目前存在的问题:

诸如“思维链”之类的提示方法是黑匣子,这意味着模型使用内部表示来生成思想,而不是使用外部世界。这可能导致幻觉,正如本文后面所见。
预训练模型以前曾用于在交互式环境中进行规划和行动。他们将多模态观察结果转换为文本,并使用语言模型生成作(WebGPT、作为零样本规划器的语言模型、保持冷静和探索)。确实会出现一些问题。这些预训练模型尚未利用语言模型来执行抽象推理。他们缺乏工作记忆,这对于长期任务很重要。最后,他们缺乏对复杂环境的探索。

二、提出的解决方案:ReAcT(推理 + 行动)

ReAcT 提示 LLM 生成与任务相关的口头推理跟踪和作,以便模型显示高级推理。ReAcT 为行动(行动的理由)以及与环境交互以检索推理的附加信息(行动到理由)创建高级计划。该论文对以下内容进行了测试:
• 问答(HotputQA 数据集)
• 事实验证(FEVER数据集)
• 基于文本的游戏(ALFWorld)
• 网页导航(Webshop)
在这里插入图片描述

三、技术实现:

在每个时间步长 t 上,代理都会收到一个 O o_t ∈观察。代理执行 B a_t ∈作,其中 B = A ∪ L。
• A:与外部环境相互作用的行动空间。
• L:用于推理思想的语言空间。
代理根据策略行事( π(a_t | c_t) ):
• c_t = (o_1, a_1, … , o_t-1, a_t-1) 是时间 t 的上下文。
• a_t要么是推理,要么是行动。
该策略使用冻结的 LLM(论文中的 PaLM)来实现。LLM 会提示一些人工注释的上下文演示。然后模型将生成下一个自回归的标记,无论是想法还是行动。
行动a_t∈A 会在上下文中引起新的 o_t+1,而思想 (a_t∈L) 则不会。
优势:
• 直观且易于设计的 ReAcT 提示。
• 通用和灵活
• 健壮,可以很好地推广到新任务。

四、实验设计与结果

1、在 ReAcT 上测试的任务:知识密集型推理任务:
• 使用HotPotQA和FEVER数据集。
作者设计了一个具有 3 个功能的维基百科 API:
• search[unity]:返回前 5 个 wiki 页面或 5 个类似的 wiki 页面。
• lookup[string]:返回包含字符串的页面中的下一个句子。
• finish[answer]:使用答案完成当前任务。
• 目的是模拟人类如何与维基百科互动。
对于少量学习,他们从 HotPotQA 中获取了 6 个示例,从 FEVER 中获取了 3 个示例,每个示例包含多个动作观察步骤。
消融部分:
用于通过删除某些组件来针对 ReAcT 进行计算的基线模型。
• 标准提示:基本提示(无思想、无行动、无观察)。
• 思维链:删除动作和观察,只保留推理。CoT-SC:生成 21 种不同的推理路径并进行多数投票,这有利于减少幻觉。
• 仅行动提示 (ACT):在删除想法的同时保留行动和观察。
当 ReAcT 未能在给定步骤内返回时,使用 CoT-SC。如果来自 n 个 CoT-SC 样品的大多数答案出现少于 n/2 次,则再次使用 ReAcT,这表明存在一定的不确定性。
结果:
• ReAcT 的表现始终优于 ACT。
• 幻觉是 CoT 的一个问题。
• 通过搜索检索知识对于 ReAcT 来说很重要。
• ReAcT + CoT-SC 在微调方面表现最佳。
2 在 ReAcT 上测试的任务:决策任务:
用于决策任务的数据集:ALFWorld 和 Webshop。
ALFWorld:模拟基于文本的家务。
• 一个任务实例最多可以有 50 个不同的家庭位置,这会导致 50 个步骤。
• 作者从训练数据中随机选择了 3 个任务,并包括稀疏的思想(关键推理步骤)来指导智能体。他们通过要求智能体分解目标、跟踪子目标完成情况、确定下一个子目标和常识性推理来做到这一点。
• 3 个随机任务作为少量示例,以便代理可以推广到新情况。
结果:
• 使用 ReAcT 提示的最佳跟踪导致 71% 的成功率,最差的跟踪导致 48% 的成功率。
• ReAcT 的表现优于 ACT(47%)和 BUTLER(37%)
• ACT 无法分解复杂的目标,而 ReAcT 则使用思考和推理。
在这里插入图片描述

http://www.dtcms.com/a/490199.html

相关文章:

  • Megatron-DeepSpeed 方案
  • 停止检索!刚刚这本期刊被数据库剔除!
  • Flink-Kafka 数据倾斜问题解决方案
  • html 实现鼠标滑动点亮横轴
  • 连接 TDengine 遇到报错 “failed to connect to server, reason: Connection refused” 怎么办?
  • Web自动化(三方库:Selenium)
  • 网站单页在线制作软件长尾关键词是什么意思
  • 生成静态页面网站源码信息门户网站是什么
  • 在阿里云CentOS服务器上使用Certbot为Nginx配置SSL证书
  • 如何优化网站打开速度网站运营和管理
  • 华为数通认证学习难吗?需掌握哪些核心知识点?
  • 【vue】导出excel
  • WiFi模块远程连接APP:wifi模块的应用
  • 关闭电脑的“快速启动”功能
  • 【MongoDB 基本语法】数据库和集合的基本操作--探秘 MongoDB
  • 提示词管理器设计:从需求到用户体验的高效落地逻辑
  • idea 网站开发无远低代码开发平台
  • FFmpeg 基本API avio_open函数内部调用流程分析
  • 27.Redisson基本使用和可重入性
  • 凡客做网站阎良网站建设公司
  • Uniapp微信小程序开发:全局变量的使用
  • 【优先队列介绍】
  • 初识HTNL
  • 笔试强训(四)
  • 【深入浅出PyTorch】--7.2.PyTorch可视化2
  • 商城系统-自动化测试报告
  • 递归-面试题08.06.汉诺塔问题-力扣(LeetCode)
  • 珠海网站建设 骏域网站域名 空间 网站制作
  • AI视频生成工具完全指南:从Sora到开源替代方案全解析
  • 多模态大模型研究每日简报【2025-10-16】