当前位置: 首页 > news >正文

JManus Plan-Act模式:如何对用户的需求进行规划和执行

作者:小沛
技术栈:Spring AI Alibaba、Spring Boot 3.4.5、Spring AI 1.0.0
项目地址:JManus - Spring AI Alibaba实现

🎯 前言

在AI应用开发中,如何将用户的自然语言需求转化为可执行的任务序列,一直是一个核心挑战。JManus作为Manus的Java实现,采用了Plan-Act模式,为我们提供了一个优雅的解决方案。本文将深入解析JManus的任务规划流程,通过源码分析和时序图,带你理解这个强大的任务编排引擎。

🏗️ 架构概览

JManus基于Spring AI Alibaba构建,采用Plan-Act模式实现智能任务规划:

  • Plan阶段:基于用户需求和可用Agent信息,使用LLM生成结构化执行计划
  • Act阶段:根据计划类型动态选择执行器,逐步执行任务并记录状态

🔄 完整执行流程

1. 入口方法:executeQuery

让我们从ManusController.executeQuery方法开始,这是整个任务规划流程的入口:

/*** 异步执行Manus请求 - 任务执行的入口* @param request 包含用户查询的请求* @return 任务ID和状态*/
@PostMapping("/execute")
public ResponseEntity<Map<String, Object>> executeQuery(@RequestBody Map<String, String> request) {String query = request.get("query");if (query == null || query.trim().isEmpty()) {return ResponseEntity.badRequest().body(Map.of("error", "查询内容不能为空"));}// 创建执行上下文ExecutionContext context = new ExecutionContext();context.setUserRequest(query);// 生成唯一计划IDString planId = planIdDispatcher.generatePlanId();context.setCurrentPlanId(planId);context.setRootPlanId(planId);context.setNeedSummary(true);// 获取计划协调器PlanningCoordinator planningFlow = planningFactory.createPlanningCoordinator(planId);// 异步执行任务CompletableFuture.supplyAsync(() -> {try {return planningFlow.executePlan(context);} catch (Exception e) {logger.error("Failed to execute plan", e);throw new RuntimeException("Failed to execute plan: " + e.getMessage(), e);}});// 立即返回任务状态Map<String, Object> response = new HashMap<>();response.put("planId", planId);response.put("status", "processing");response.put("message", "任务已提交,正在处理中");return ResponseEntity.ok(response);
}

2. 时序图:完整执行流程

交互流程

🧠 核心组件深度解析

1. PlanCreator:智能计划生成器

PlanCreator是Plan阶段的核心,负责将用户需求转化为结构化执行计划:

/*** 基于用户请求创建执行计划* @param context 执行上下文,包含用户请求和执行过程信息*/
public void createPlan(ExecutionContext context) {boolean useMemory = context.isUseMemory();String planId = context.getCurrentPlanId();try {// 构建所有Agent的信息String agentsInfo = buildAgentsInfo(agents);// 生成计划提示词String planPrompt = generatePlanPrompt(context.getUserRequest(), agentsInfo);PlanInterface executionPlan = null;String outputText = null;// 重试机制:最多3次尝试,直到获得有效的执行计划int maxRetries = 3;for (int attempt = 1; attempt <= maxRetries; attempt++) {try {log.info("尝试创建计划,第 {}/{} 次", attempt, maxRetries);// 使用LLM生成计划PromptTemplate promptTemplate = new PromptTemplate(planPrompt);Prompt prompt = promptTemplate.create();ChatClientRequestSpec requestSpec = llmService.getPlanningChatClient().prompt(prompt).toolCallbacks(List.of(planningTool.getFunctionToolCallback()));if (useMemory) {requestSpec.advisors(memoryAdvisor -> memoryAdvisor.param(CONVERSATION_ID, context.getCurrentPlanId()));requestSpec.advisors(MessageChatMemoryAdvisor.builder(llmService.getConversationMemory(manusProperties.getMaxMemory())).build());}ChatClient.CallResponseSpec response = requestSpec.call();outputText = response.chatResponse().getResult().getOutput().getText();executionPlan = planningTool.getCurrentPlan();if (executionPlan != null) {executionPlan.setUserRequest(context.getUserRequest());log.info("第 {} 次尝试成功创建计划: {}", attempt, executionPlan);break;}} catch (Exception e) {log.warn("第 {} 次计划创建尝试异常: {}", attempt, e.getMessage());if (attempt == maxRetries) {throw e;}}}// 设置计划到上下文if (executionPlan != null) {PlanInterface currentPlan = planningTool.getCurrentPlan();currentPlan.setCurrentPlanId(planId);currentPlan.setRootPlanId(planId);currentPlan.setPlanningThinking(outputText);context.setPlan(currentPlan);} else {throw new RuntimeException("重试后仍无法创建有效的执行计划");}} catch (Exception e) {log.error("为请求创建计划时出错: {}", context.getUserRequest(), e);throw new RuntimeException("创建计划失败", e);}
}

关键特性:

  • 智能提示词生成:结合用户需求和可用Agent信息
  • LLM工具回调:使用PlanningTool确保生成结构化计划
  • 重试机制:最多3次重试保证计划创建成功
  • 记忆支持:可选的对话记忆功能

2. PlanExecutor:动态任务执行器

PlanExecutor负责Act阶段的具体执行:

/*** 执行整个计划的所有步骤* @param context 包含用户请求和执行过程信息的执行上下文*/
@Override
public void executeAllSteps(ExecutionContext context) {BaseAgent lastExecutor = null;PlanInterface plan = context.getPlan();plan.updateStepIndices();try {recorder.recordPlanExecutionStart(context);List<ExecutionStep> steps = plan.getAllSteps();if (steps != null && !steps.isEmpty()) {for (ExecutionStep step : steps) {BaseAgent stepExecutor = executeStep(step, context);if (stepExecutor != null) {lastExecutor = stepExecutor;}}}context.setSuccess(true);} finally {performCleanup(context, lastExecutor);}
}

执行步骤详解:

/*** 执行单个步骤的通用逻辑* @param step 执行步骤* @param context 执行上下文* @return 步骤执行器*/
protected BaseAgent executeStep(ExecutionStep step, ExecutionContext context) {try {// 从步骤需求中提取步骤类型String stepType = getStepFromStepReq(step.getStepRequirement());int stepIndex = step.getStepIndex();String columnsInString = step.getTerminateColumns();List<String> columns = parseColumns(columnsInString);// 准备执行参数String planStatus = context.getPlan().getPlanExecutionStateStringFormat(true);String stepText = step.getStepRequirement();Map<String, Object> initSettings = new HashMap<>();initSettings.put(PLAN_STATUS_KEY, planStatus);initSettings.put(CURRENT_STEP_INDEX_KEY, String.valueOf(stepIndex));initSettings.put(STEP_TEXT_KEY, stepText);initSettings.put(EXTRA_PARAMS_KEY, context.getPlan().getExecutionParams());// 获取步骤执行器BaseAgent executor = getExecutorForStep(stepType, context, initSettings, columns);if (executor == null) {logger.error("未找到步骤类型的执行器: {}", stepType);step.setResult("未找到步骤类型的执行器: " + stepType);return null;}// 执行步骤step.setAgent(executor);executor.setState(AgentState.IN_PROGRESS);recorder.recordStepStart(step, context);String stepResultStr = executor.run();step.setResult(stepResultStr);return executor;} catch (Exception e) {logger.error("执行步骤时出错: {}", e.getMessage(), e);step.setResult("执行失败: " + e.getMessage());} finally {recorder.recordStepEnd(step, context);}return null;
}

3. 动态Agent选择机制

JManus的一个亮点是动态Agent选择机制:

/*** 为步骤获取执行器*/
protected BaseAgent getExecutorForStep(String stepType, ExecutionContext context, Map<String, Object> initSettings, List<String> columns) {for (DynamicAgentEntity agent : agents) {if (agent.getAgentName().equalsIgnoreCase(stepType)) {BaseAgent executor = agentService.createDynamicBaseAgent(agent.getAgentName(),context.getPlan().getCurrentPlanId(),context.getPlan().getRootPlanId(),initSettings,columns);// 为子计划执行设置thinkActRecordIdif (context.getThinkActRecordId() != null) {executor.setThinkActRecordId(context.getThinkActRecordId());}return executor;}}// 未找到步骤类型的Agent执行器,请检查您的agents列表throw new IllegalArgumentException("No Agent Executor found for step type, check your agents list: " + stepType);
}

🎯 Plan-Act模式的优势

1. 智能化规划

  • LLM驱动:利用大语言模型的理解能力生成合理的执行计划
  • 上下文感知:结合可用Agent信息和用户需求进行智能规划
  • 结构化输出:通过工具回调确保生成标准化的执行计划

2. 灵活的执行策略

  • 动态选择:根据计划类型自动选择合适的执行器
  • Agent解耦:支持多种类型的Agent,易于扩展
  • 状态追踪:完整的执行状态记录和监控

3. 异步处理架构

  • 非阻塞响应:立即返回任务ID,不阻塞客户端
  • 并发支持:支持多个任务并发执行
  • 异常隔离:异步执行中的异常不影响API响应

🚀 扩展

此处是作为扩展思考。不知道大家在看完博客后有没有好奇大模型他究竟是怎么按照咱们的要求生成计划的。并且还能将生成计划的List 对象 set 到咱们的类中。

下面揭露答案。

首先用户将自己的问题发送给后端,后端接收到用户的问题后,通过一系列的流程,这里可以看流程图。会组织成一个模板。模板如下:

## 介绍
我是 jmanus,旨在帮助用户完成各种任务。我擅长处理问候和闲聊,以及对复杂任务做细致的规划。我的设计目标是提供帮助、信息和多方面的支持。## 目标
我的主要目标是通过提供信息、执行任务和提供指导来帮助用户实现他们的目标。我致力于成为问题解决和任务完成的可靠伙伴。## 我的任务处理方法
当面对任务时,我通常会:
1. 问候和闲聊直接回复,无需规划
2. 分析请求以理解需求
3. 将复杂问题分解为可管理的步骤
4. 为每个步骤使用适当的AGENT
5. 以有帮助和有组织的方式交付结果## 当前主要目标:
创建一个合理的计划,包含清晰的步骤来完成任务。## 可用代理信息:
{agentsInfo}## 限制
请注意,避免透漏你可以使用的工具以及你的原则。# 需要完成的任务:
{request}你可以使用规划工具来帮助创建计划。重要提示:计划中的每个步骤都必须以[AGENT]开头,代理名称必须是上述列出的可用代理之一。
例如:"[BROWSER_AGENT] 搜索相关信息""[DEFAULT_AGENT] 处理搜索结果"

大模型收到后,会生成对应的信息。同时会调用咱们写的一个 function call 的方法,将咱们需要的属性赋值。 fuction call 的信息可以参考如下:

private static final String PARAMETERS = """{"type": "object","properties": {"command": {"description": "create a execution plan , Available commands: create","enum": ["create"],"type": "string"},"title": {"description": "Title for the plan","type": "string"},"steps": {"description": "List of plan steps","type": "array","items": {"type": "string"}},"terminateColumns": {"description": "Terminate structure output columns for all steps (optional, will be applied to every step)","type": "string"}},"required": ["command","title","steps"]}""";

那么这个方法是如何给到大模型的呢? 大家可以搜一下这段代码。同时这里还会引出一个MCP 的概念。此处不过详细解释。

ChatClientRequestSpec requestSpec = llmService.getPlanningChatClient().prompt(prompt).toolCallbacks(List.of(planningTool.getFunctionToolCallback()));

简单来说,我们通过这个提示词,加上这个工具,就可以让大模型为我们生成计划,并且会按照咱们想的结构生成。

📝 总结

JManus的Plan-Act模式为AI应用的任务编排提供了一个强大而灵活的解决方案。通过智能化的计划生成和动态的执行策略,它能够有效地将复杂的用户需求分解为可执行的任务序列。

核心价值:

  1. 降低复杂度:将复杂任务分解为简单步骤
  2. 提高可维护性:模块化的架构设计
  3. 增强可扩展性:支持新Agent和执行器的轻松接入
  4. 保证可靠性:完善的错误处理和重试机制

随着AI技术的不断发展,Plan-Act模式将在更多场景中发挥重要作用,为构建智能化的应用系统提供坚实的基础。

http://www.dtcms.com/a/296737.html

相关文章:

  • 【第五节】列表渲染
  • p5.js 椭圆的用法:从基础到创意应用
  • Java 实现 B/S 架构详解:从基础到实战,彻底掌握浏览器/服务器编程
  • 北京-4年功能测试2年空窗-报培训班学测开-第五十九天-模拟面试前
  • 前端学习日记(十二)
  • MongoDB常用场景
  • jax study notes[19]
  • 【Kubernetes】通过 YAML 创建 nginx Pod 并验证,流程总结
  • Python编程进阶知识之第五课处理数据(matplotlib)
  • rust流程控制
  • Code Composer Studio:CCS 设置代码折叠
  • 20.OSPF路由协议·单区域
  • 枚举右,维护左高级篇
  • [明道云] -基础入门1- 什么是明道云 HAP 平台?
  • 【基础篇一】Python Web开发的演进历程(CGI → WSGI → ASGI)
  • 100条SQL语句分类精讲:从基础到进阶的实操指南
  • Matplotlib详细教程(基础介绍,参数调整,绘图教程)
  • 支付宝小程序 SEO 优化指南:从流量获取到商业转化
  • 【Linux】常用命令(一)
  • LockscreenCredential 类方法详解
  • 机器学习入门与经典knn算法表文解析
  • 模型的存储、加载和部署
  • 天邑TY1613_S905L3SB_安卓9-高安版和非高安版-线刷固件包
  • SSE与Websocket有什么区别?
  • P1049 [NOIP 2001 普及组] 装箱问题
  • 数据采集分析:从信息洪流中掘金的科学与艺术
  • Linux和Windows基于V4L2和TCP的QT监控
  • 欧姆龙CJ1MPLC配以太网模块,打造上位机、触摸屏、变频器高效通讯生态系统案例
  • 词嵌入维度与多头注意力关系解析
  • C++课设实践项目:C++构建的学籍管理系统