我的开源项目-AI Agent 配置系统
AI Agent 简述
当下,AI Agent 领域呈现爆发式增长,涌现出众多优秀产品。它们大致可分为两类:
-
工作流编排平台:代表如开源的 Dify、闭源的 Coze。这类平台通过可视化配置(如拖拽节点、连接线)构建 AI 应用,核心特点是简便易操作,极大降低了技术使用门槛。然而,这种 “低代码 / 无代码” 模式虽深受产品经理或业务分析师青睐,却难以满足追求技术深度与定制化能力的开发者(尤其是程序员)需求 —— 其对底层技术细节的高度抽象甚至 “屏蔽”,限制了开发者对技术栈的深度把控。
-
专用 / 通用 Agent 产品:代表如专注编码增强的闭源产品 Cursor,或是提供通用基础能力的开源框架 Cherry Studio。这类产品要么具备特定强化技能(如 Cursor 的代码理解与生成能力),要么提供基础 Agent 架构支持(如 Cherry Studio)。开发者(尤其是 AI 应用开发者)需通过编码方式构建垂直领域 AI Agent 系统,但面临AI时代技术迭代加速的压力:例如此前主流的智能体构建框架是 LangChain、AutoGen,而随着 LangGraph 的出现,AI Agent 的构建架构已更倾向于采用这类图框架。
AI Agent 面临的核心问题
当我们着手开发 AI Agent 应用时,通常会预先规划其核心能力(BaseTools)。例如,一个编码 IDE Agent(如 Cursor)必备的工具可能包括:终端执行、文件读写、代码搜索、网络查询等;而像 Cherry Studio 这样的基础 Agent 框架,则内置了更广泛的 BaseTools(网络搜索、爬虫、文件读写、浏览器自动化操控等),并可通过 MCP 协议动态加载第三方工具以满足定制化需求。然而,这种设计模式在实践中面临两大核心挑战:
重复造轮子与效率瓶颈
开发成熟高效的垂直领域 Agent(如 Cursor)需要深厚的领域知识积累,初期尝试往往只能构建概念验证(Proof-of-Concept)或 Demo 级产品,与成熟产品存在显著差距。
在反复试错、迭代和突破的过程中,开发者需构建多个 Agent 原型。但这些开发过程充斥着大量重复性工作:对话管理、记忆机制、工具调用接口、规划决策逻辑乃至基础 UI 组件等核心模块,在不同 Agent 项目中往往需要反复开发。这不仅效率低下,还易引入系统不一致性和维护难题。
复杂业务系统集成的困境
通过 MCP 动态加载工具的方式,在面对庞大复杂的真实业务系统时存在根本性局限:
-
上下文超限:业务系统接口数量庞大、功能复杂,将所有接口描述封装为 MCP 工具后,信息量极易超出 LLM 上下文窗口限制,导致关键信息截断或模型无法正常工作。
-
提示词污染与决策失效:即使上下文勉强容纳所有工具描述,过量信息也会 "淹没" 核心指令,干扰 LLM 决策精准度,使其难以选择正确工具或忽略 Prompt 关键约束。
-
决策复杂度爆炸:工具数量增加会导致 LLM 决策路径呈指数级增长。例如 "导航到某页面" 这一简单任务,LLM 可能通过内置知识、网络搜索、RAG 知识库查询等多种路径实现。在复杂场景下,工具数量超出阈值后,会导致试错成本增高、执行效率降低,最终使 Agent 行为难以预测和控制。
AI Agent 配置系统的设计与理念
针对上述痛点,我们开源了 AI Agent配置系统,旨在为开发者提供一套高效、灵活、面向复杂业务集成的解决方案。其核心思想围绕架构级复用和动态可配置性展开。
架构级复用:告别重复劳动
系统的核心是建立一套高度模块化、可插拔的架构。它将 AI Agent 开发中的常见元素(如 LLM 模型接入层、Embedding 模型接口、基础工具集、MCP 客户端、记忆存储后端、核心逻辑节点等)抽象为标准化组件。
开发者遵循框架定义的规范,即可通过少量编码轻松集成新的 LLM 供应商(如 GPT-4、QWen、DeepSeek、本地模型)、Embedding 模型、自定义基础工具或连接新的 MCP 服务;编码完成后,系统会自动将其加载为配置项,前端无需任何修改。
关键优势:后续开发无需再为基础设施 “重写轮子”。开发者可像搭积木一样快速组合已验证的组件,将精力聚焦在构建差异化的垂直领域逻辑和用户体验上。
思维框架抽象与组件化
我们深入思考 AI Agent 的本质:其核心在于思维逻辑框架(如经典的 ReAct 框架:Think -> Act -> Observe -> Reflect),这些框架定义了 Agent 的决策流和工作模式。
进一步地,这些框架可由更细粒度的功能节点(Node)和连接它们的逻辑边(Edge)构成(类似 LangGraph 的概念)。例如,ReAct Agent 中的 “Think” 节点、自定义 Agent 中的 “意图识别” 节点,都是可复用的功能单元。
因此,我们希望开发者从 “代码搬运工” 转变为 “设计与优化师”,将精力放在优化现有逻辑、拓展新逻辑上,对于已完成的节点(如 Think 节点)直接复用即可。开发者可以通过配置即可复用成熟的思维框架和功能节点,从重复编码中解放出来,极大加速 Agent 原型构建和迭代速度,显著提升开发体验。
动态适应与人类引导
网络上有专家认为,未来 LLM 不断进化后会出现万能通用智能体。但我的观点是:未来的 “通用” AI Agent 不太可能是固定不变、包罗万象的 “万能体”—— 工具泛滥会导致决策复杂度和不可预测性激增。通用 AI Agent 的发展误区在于追求 “全功能固定架构”,而工具数量与决策复杂度的正相关关系,必然导致系统稳定性下降。
我认为更可行的路径是:AI Agent基于强大且经过验证的基础思维框架(如改进的 ReAct、并支持人机协同的框架),再通过AI Agent 配置系统赋予其动态适应能力。配置系统通过以下机制实现动态适配:
-
按需配置工具集:为特定任务场景或业务领域预先定义和激活最相关的工具子集,避免向 LLM 暴露所有工具。
-
引导工具切换策略:通过系统配置规则、RAG 工程或 Prompt 工程,引导 Base Agent 在特定上下文或问题中优先 / 强制使用某些工具,禁用不相关工具。
-
构建分层 Agent 架构:支持构建由多个专门化 Agent 组成的系统,由路由 Agent(或配置规则)根据意图将任务分发给最合适的子 Agent 处理。
关键优势:使 Base Agent 在保持核心框架稳定的同时,动态 “瘦身” 和 “聚焦”,有效解决复杂业务集成中的上下文超限和决策混乱问题,提升垂直领域执行效率和可靠性。人类智慧通过配置系统为 Agent 提供关键决策支撑。
AI Agent 配置系统系统架构
AI Agent 配置系统架构
与传统的分层架构不同的是,AI Agent 配置系统以模块化开发为基础,各模块间则通过 “包含关系” 协同,构建分层且功能聚焦的架构体系,核心模块及关联逻辑如下:
AI 助手管理模块
AI 助手管理模块作为系统呈现层,直接面向用户交互。它需要智能体管理、场景管理、接入权限管理及辅助模块协同支撑,主要功能包括:
-
交互载体:提供展示窗口、操作按钮(上传文件、深度搜索等),支持对话、语音、视频等AI Agent 交互表现形式;
-
场景适配:依托场景管理模块,明确 AI 助手的具体适用场景。
智能体管理模块
智能体管理模块是整个AI Agent 配置系统的核心,它基于 “LLM + 记忆 + 任务规划 + 工具使用” 经典四件套架构,扩展 AI Agent 表现形式,是系统核心能力基座,主要包含:
-
模型配置:支持 LLM(大语言模型)、Embedding(嵌入模型)及 sys prompt(系统提示词)配置,定义智能体基础 “大脑”;
-
记忆体系:通过记忆管理模块实现,涵盖历史记录、多轮会话、实时标记、微调数据生成等功能,保障智能体 “上下文理解” 连续性,为后续的大模型优化微调提供了数据支撑和管理;
-
工具生态:聚合基础工具、MCP 接入工具、RAG 工具,支撑智能体任务执行能力:
-
基础工具:提供工具集管理(启用 / 禁用、人机交互支持等),覆盖通用任务需求,主要包含mcp工具调用工具、浏览器自动化操作工具、web search 工具等;
-
MCP 工具:支持三方平台以标准化的MCP 协议接入,并提供适用于业务领域的专用工具,并包括接入配置、启用 / 禁用等功能,拓展AI Agent面向垂直业务领域的能力;
-
RAG 工具:基于 Modular RAG 架构,实现根据配置和需求分类调用不同的 RAG模块、并包含数据 / 文档管理、向量化支持、模板导入 / 导出等功能,强化知识检索与应用;
-
-
逻辑构建:以 LangGraph 图架构为基础,编排智能体核心决策流(任务规划、工具调用等逻辑),打造面向垂直领域的 AI Agent。
场景管理模块
通过 “组合模式” 实现场景层级管理,定义 AI 助手的适用边界(如特定业务流程、交互场景),让智能体能力精准匹配需求。
接入权限管理模块
基于 AI Agent 中的 Agent、MCP 等元素,统一适配业务系统接入规则,保障系统集成安全性与兼容性。
辅助模块
为系统稳定运行提供基础保障,涵盖:
-
日志管理:记录系统操作、交互过程,辅助问题排查;
-
异常管理:监测、响应系统运行异常,保障稳定性;
-
缓存管理:优化数据访问效率,加速交互响应;
-
持久层管理:实现数据持久化存储(如对话记录、配置信息);
-
容器化管理:支持系统容器化部署,提升环境一致性与可移植性。
AI Agent 配置系统核心模块设计
场景管理模块
场景管理模块是 AI Agent 配置系统中把控智能体业务边界、优化流程与体验的关键组件,通过多环节场景关联实现精准服务:
-
场景绑定与配置约束:作为明确智能体处理范围的核心机制,场景管理要求配置 AI 助手时选定专属场景,且仅能调用该场景下的智能体,从源头锚定智能体服务边界,避免能力越界。
-
全流程场景关联:场景概念贯穿系统处理全链路,记忆管理按 “场景 + 智能体” 维度分类存储,RAG 模块数据也区分场景,让记忆检索、知识查询能基于场景缩小范围,大幅提升精准度。
-
用户交互的场景灵活度:既支持用户主动指定场景(如选定 “锐通智慧公交平台报表处理场景” 开展问答),也适配用户无明确场景需求的情况 —— 系统借智能场景选择工具,先通过 RAG 查询定位适配信息,再依据信息关联的下层场景(如从智能导航场景关联到报表场景 ),引导用户切换场景处理复杂需求,实现场景服务的 “主动适配” 与 “智能引导”。
AI 助手中的场景选择
简言之,场景管理模块通过 “配置约束 - 全流程关联 - 灵活交互引导”,让 AI Agent 在精准服务边界内,适配用户多样场景需求,提升系统处理效率与智能体验。
工具管理模块
MCP 工具管理页面
AI Agent 配置系统的工具管理模块,包括基础工具的管理以及MCP 工具的管理,它更加聚焦细粒度管控,为工具全生命周期管理与风险防控提供支撑:
-
工具信息全记录:详细留存工具集中各工具的名称、功能描述及参数配置,成为问题排查的 “透视镜”。当大模型调用工具出现异常时,可结合调用日志与工具详情,精准核查 LLM 传入参数是否匹配工具定义,快速定位问题根源。
-
工具启用 / 禁用灵活控:为每个工具配备独立开关,让场景化工具筛选更高效。例如浏览器操作场景中,若需控制浏览器以 “新开标签页” 而非 “替换当前页面” 导航,可直接禁用
browser_go_to_url
工具,强制大模型选择browser_open_tab
。相比单纯通过 Prompt 约束,这种 “物理开关” 避免了大模型 “不听话” 的风险,让工具调用更可控。 -
人机交互精准设防:针对业务工具的风险操作(如数据增删改),支持为特定 MCP 工具集中的具体工具配置人机交互关卡。区别于查询操作的低管控,增删改类操作通过 “人机确认” 兜底,避免 LLM 自动化执行带来的数据风险,实现工具使用 “风险分层防控”,让 AI Agent 在自动化与安全性间找到平衡。
工具管理模块以 “细粒度记录 - 场景化开关 - 精准化风险防控” 为路径,既保障工具调用可追溯、可管控,又适配业务场景需求,为 AI Agent 稳定、安全运行筑牢工具层防线。
记忆管理+人类标注反馈
AI Agent 系统记忆管理页面
在 AI Agent 的运行体系中,记忆管理模块与人类标注反馈机制的结合,是推动大模型持续适配业务场景的核心引擎。
记忆管理模块承担着 "经验沉淀" 的关键角色。它会全程记录用户与 AI Agent 交互的每一步细节:从用户最初提出的需求、AI Agent 执行的操作(如调用工具、生成指令等),到用户的补充提问、Agent 的二次响应,再到后续每一轮互动,均以时序化、标签化的格式结构化存储。这种设计让整个交互流程清晰可溯 —— 通过明确标注 "用户问题""Agent 操作 ""执行工具" 等标签,配合时间戳排序,能直观还原 AI Agent 处理需求的完整逻辑链,为后续数据利用奠定基础。
AI Agent 配置系统存储的历史消息记录
在此基础上,模块内置的实时标注与打分机制,将用户反馈转化为高质量训练数据的 "催化剂"。用户可在交互过程中,针对 AI Agent 的操作流程、响应效果实时打分(如准确性、效率),或补充标注(如 "步骤冗余"" 指令错误 "等)。这些即时反馈与系统记录的操作流程深度绑定,既省去了传统数据标注中" 回溯整理 " 的冗余步骤,又因反馈的即时性保证了数据质量 —— 用户在操作场景中的直观判断,往往比事后回忆更精准。
这种 "记录 - 反馈" 模式形成的闭环,能持续产出两类核心数据:一是时序化的操作流程数据,可直接作为微调文档(KV 文档),帮助大模型学习业务系统的操作逻辑;二是带用户打分的交互记录,可转化为 RHLF(基于人类反馈的强化学习)中的排序数据集(RM 数据集),用于优化模型的决策偏好。更重要的是,这些数据天然蕴含 COT(思维链)格式 ——AI Agent 的每步操作对应其处理需求的推理过程,以此为基础微调的大模型,能更快习得符合业务场景的思考逻辑,逐步进化为更适配该系统的专属模型。
最终,随着交互数据的积累与反馈循环的运转,AI Agent 的记忆管理模块不仅是 "经验仓库",更成为大模型持续迭代的 "训练数据工厂",让模型在业务场景中越用越 "懂" 用户,越用越高效。
AI Agent 配置系统的基础决策框架
基于ReRct + 人机交互的 AI Agent 设计架构
在 AI Agent 系统的核心架构设计中,基于经典的 ReAct(思考 - 执行 - 反馈)框架进行升级优化,创新性地融入 human-in-loop(人机交互)机制,构建出 “think-execute-human-in-loop” 的完整闭环体系。这一架构既保留了大模型自主决策的高效性,又通过人类实时介入提升了复杂业务场景的适配能力,实现了机器智能与人类决策的深度协同。
架构以 “节点化流转 + 循环迭代” 为核心,明确划分四大关键节点,各节点分工清晰且紧密衔接:
think 节点:决策中枢的思考引擎
作为流程的起始与核心驱动节点,think 节点承担大模型的深度推理与策略规划职能。大模型需基于用户需求、历史操作记录及工具调用结果,动态判断下一步行动方向 —— 是直接生成回复,还是调用工具补充信息,或是调整操作策略。每一轮 tool 调用前、执行后,think 节点都会进行逻辑复盘与路径校准,确保决策贴合业务目标。
tool 节点:多维度工具调用体系
tool 节点作为大模型与外部资源交互的桥梁,被细分为三大类工具,覆盖信息检索、系统操作与业务接口调用全场景:
-
RAG(检索增强生成):采用 Agentic RAG 实现方式,通过检索导航 URL 等外部知识库,获取绑定的 MCP 工具列表等关键资源信息,为大模型提供决策依据;
-
Base Tool(基础工具):包含浏览器自动化操作组件与业务系统交互组件。前者可模拟人工完成页面访问、数据抓取等浏览器操作,后者支持与底层系统的基础交互;
-
MCP 接口:封装 MCP 服务器的工具列表与参数规范,在合适场景下向大模型提供详细的工具描述与参数说明,确保外部服务接口调用的准确性。
final answer 节点:阶段性结果输出与流程转接
当大模型完成一轮工具调用与逻辑分析后,进入 final answer 节点,以自然语言形式向用户输出当前阶段的处理结果。该节点虽被设定为传统 ReAct 框架的 END 节点,但在本架构中仅作为 “阶段性闭环” 标志 —— 结果输出后,系统不会终止流程,而是自动转接至人机交互节点,等待用户决策下一步方向。
human-in-loop 节点:人类决策的主动介入机制
作为架构的核心创新点,human-in-loop 节点在 final answer 节点后启动,将人类决策纳入循环体系。此时用户可基于当前结果,自主选择:补充需求、调整参数、确认继续处理,或终止当前流程开启新对话。系统通过上下文压缩技术,在保留工具调用细节、关键推理节点等核心信息的前提下轻量化处理历史内容,既避免上下文长度超限,又确保大模型能完整追溯前期逻辑,实现 “原问题 + 补充需求” 的联合理解,避免注意力偏移导致的偏差。
流程运转:从自主循环到人机协同闭环
架构的运转呈现 “自主决策 - 人类介入” 的递进式循环模式,具体流程可通过典型场景拆解:
-
think 阶段:大模型基于用户需求深度思考,判断需调用 RAG 获取 MCP 工具列表;
-
execute 阶段:执行 RAG 检索,获取可调用的外部服务资源;
-
think 阶段:整合检索结果与原始需求,规划下一步操作;
-
execute 阶段:启动浏览器自动化工具,打开对应业务页面;
-
think 阶段:依据页面访问情况,确定需调用 MCP 接口查询数据;
-
execute 阶段:按参数规范调用 MCP 工具,获取具体业务数据;
-
answer 阶段:生成自然语言回复,触发 END 节点,随即进入 human-in-loop 环节;
-
human-in-loop 阶段:用户确认是否补充需求(如细化参数、调整查询维度),或开启新任务。
可见,在自主决策阶段,大模型以 “think-execute” 循环推进任务,每轮操作均通过思考 - 执行的往复实现逻辑深化;当流程抵达 answer 节点后,human-in-loop 机制介入,形成 “think-execute-human-in-loop” 的完整闭环,将人类决策的主动性转化为流程优化的驱动力。
架构优势:复杂场景下的适应性与精准性
该架构在复杂业务处理中展现显著优势:
-
上下文关联强化:面对多轮补充需求,大模型可依托历史操作步骤与压缩后的上下文,通过 think 节点精准规划后续路径,避免孤立处理新需求导致的逻辑断裂;
-
参数动态补全:用户可在交互中实时补充 MCP 接口所需参数,实现多轮会话的信息补全,确保工具调用贴合实际业务场景;
-
决策灵活性提升:人类介入打破了自动化闭环的刚性限制,既能在流程偏差时及时校准方向,又能在需求变更时快速切换任务线,平衡效率与准确性。
通过机器自主推理与人类实时决策的深度融合,该架构让 AI Agent 在处理涉及多步骤、强关联的复杂业务时更具适应性,为后续模型微调积累高质量的业务逻辑数据,持续优化业务场景适配能力。
Gitee 开源项目地址
https://gitee.com/wendgit/rtzl_aiweb
当前项目仍处于开发沉淀期,我们正全力进行代码的迭代优化。后续将持续更新,敬请关注!