当前位置：首页 > news >正文

北京大学：AI+Agent与Agentic+AI的原理与应用（适合科研从业者和技术爱好者阅读）

news 2025/9/5 2:59:55

AI Agent：从智能工具到自主决策者，一场颠覆人机交互的革命
——北大「AI肖睿团队」技术前沿解读
文档下载：文档链接
在这里插入图片描述

一、为什么AI Agent突然爆发？

2025年被称为“Agent元年”，其爆发源于两大核心驱动力：

大语言模型（LLM）的质变：GPT-4、Claude 3等模型在指令理解、多步推理和代码生成上的跃升，让AI具备了“思考大脑”。
基础设施成熟：向量数据库（如ChromaDB）、标准化协议（MCP/A2A/AG-UI）及开源框架（LangChain、CrewAI）降低了开发门槛。
技术拐点已至：AI从“被动问答”走向“主动执行”。

二、揭秘AI Agent的四大核心能力

1. 感知：多模态信息融合
突破：GPT-4V、通义千问等多模态模型可直接解析图像、语音、传感器数据，不再依赖“文本转换”。
挑战：动态环境下的实时感知精度仍需提升（如自动驾驶中的突发障碍识别）。
2. 规划：从任务拆解到动态决策
关键技术：
ReAct框架：思考（Reason）→行动（Act）→观察（Observe）的闭环（如让AI规划旅行行程）；
分层任务网络（HTN）：将“写行业报告”拆解为“查资料→分析数据→生成图表→整合成文”。
痛点：复杂任务中易出现逻辑断层（如科研论证的因果链断裂）。
3. 记忆：短期与长期记忆协同
短期记忆：上下文窗口扩展至128K tokens（如Claude 3.7），支持长对话连贯性；
长期记忆：RAG技术+知识图谱，实现个性化服务（如客服记住用户偏好）；
局限：知识检索准确率受向量化质量限制。
4. 行动：工具调用与物理交互
MCP协议：统一工具调用接口（如订酒店时自动调取Booking.com API）；
代码沙盒：安全执行Python脚本（数据分析/自动化办公）；
前沿探索：Anthropic的“Computer Use”尝试视觉操控操作系统界面。
技术本质：Agent = LLM（大脑） + 工具（手脚） + 记忆（经验）

三、落地案例：Agent如何改变行业？

在这里插入图片描述

创新体验：

Genspark：混合Agent系统（MoA）一键生成特朗普争议事件的三段式连贯视频；
秘塔AI：搜索→分析→输出结构化报告（含思维导图/PPT），颠覆传统检索模式。

四、技术挑战：Agent的“天花板”在哪里？

规划缺陷：抽象推理能力不足（如金融风控的因果链分析）；
幻觉控制：专业领域仍存在事实错误（如医疗诊断误判）；
多Agent协同：任务冲突时缺乏仲裁机制（如20个Agent协作时资源争抢）；
安全边界：工具调用权限失控风险（如自动转账的安全校验缺失）。北大团队提出“元规划优化框架（MPO）”部分解决复杂规划问题。

五、未来：Agent将走向何方？

1. 生态范式重构
模型即服务：LLM从“底层引擎”升级为“产品本体”（如OpenAI的Agent SDK）；
协议标准化：MCP（工具调用）、A2A（Agent通信）、AG-UI（人机交互）三大协议形成“Agent互联网”。
2. 操作系统级变革
AgentOS雏形：Fellou浏览器整合感知-决策-行动链，实现“一句话操控电脑”；
人机关系再定义：AI从“工具”变为“协作者”（如企业中的“数字员工”团队）。
3. 垂直与通用Agent分化
专用Agent（如Lovart设计Agent）深耕行业Know-How；
通用Agent（如Manus）向“超级助理”演进，目标“一键解决80%日常任务”。
肖睿团队预判：2026年将是“Agent First”时代起点——交互入口从“点击图标”变为“对话目标”。