ReAct 框架
ReAct 框架:将推理轨迹与任务动作交织生成的通用范式
传统推理类和行动类方法
人类智能的核心特征是 “推理与行动的协同”(如烹饪时的思考与操作结合),而当前大语言模型的研究存在割裂—— 要么仅关注推理(如 CoT),要么仅关注行动(如交互式环境中的动作生成),缺乏二者的深度融合。
CoT 依赖内部知识易导致幻觉,而纯行动模型因缺乏推理易陷入无效循环:(原文中的图片)
ReAct 范式的原理
核心思想是通过将智能体的行动空间扩展为 “动作空间(A)+ 语言空间(L)
推理轨迹不影响外部环境,仅用于更新上下文(如分解目标、跟踪进度、处理异常);动作则用于与外部环境交互(如调用维基百科 API、游戏操作),为推理提供新信息。
ReAct 范式的技术细节
行动空间设计
推理轨迹(Thought)是 ReAct 区别于纯 Act-only 模型的核心,它不直接与外部环境交互,而是通过 “分析当前状态、规划下一步行动、整合观察结果”,为每个动作提供明确的决策依据。
轨迹生成规则
知识推理任务:采用 “密集推理”,强制 Thought 与 Action 交替生成;
决策任务:采用 “稀疏推理”,让 LLM 自主决定推理出现的时机(如仅在目标分解、子任务切换时生成 Though)。
提示工程
ReAct 依赖 “少量示例提示”(1-6 个人工标注的推理 - 动作轨迹),无需微调即可驱动 LLM