北京大学:AI+Agent与Agentic+AI的原理与应用(适合科研从业者和技术爱好者阅读)
AI Agent:从智能工具到自主决策者,一场颠覆人机交互的革命
——北大「AI肖睿团队」技术前沿解读
文档下载:文档链接
一、为什么AI Agent突然爆发?
2025年被称为“Agent元年”,其爆发源于两大核心驱动力:
大语言模型(LLM)的质变:GPT-4、Claude 3等模型在指令理解、多步推理和代码生成上的跃升,让AI具备了“思考大脑”。
基础设施成熟:向量数据库(如ChromaDB)、标准化协议(MCP/A2A/AG-UI)及开源框架(LangChain、CrewAI)降低了开发门槛。
技术拐点已至:AI从“被动问答”走向“主动执行”。
二、揭秘AI Agent的四大核心能力
1. 感知:多模态信息融合
突破:GPT-4V、通义千问等多模态模型可直接解析图像、语音、传感器数据,不再依赖“文本转换”。
挑战:动态环境下的实时感知精度仍需提升(如自动驾驶中的突发障碍识别)。
2. 规划:从任务拆解到动态决策
关键技术:
ReAct框架:思考(Reason)→行动(Act)→观察(Observe)的闭环(如让AI规划旅行行程);
分层任务网络(HTN):将“写行业报告”拆解为“查资料→分析数据→生成图表→整合成文”。
痛点:复杂任务中易出现逻辑断层(如科研论证的因果链断裂)。
3. 记忆:短期与长期记忆协同
短期记忆:上下文窗口扩展至128K tokens(如Claude 3.7),支持长对话连贯性;
长期记忆:RAG技术+知识图谱,实现个性化服务(如客服记住用户偏好);
局限:知识检索准确率受向量化质量限制。
4. 行动:工具调用与物理交互
MCP协议:统一工具调用接口(如订酒店时自动调取Booking.com API);
代码沙盒:安全执行Python脚本(数据分析/自动化办公);
前沿探索:Anthropic的“Computer Use”尝试视觉操控操作系统界面。
技术本质:Agent = LLM(大脑) + 工具(手脚) + 记忆(经验)
三、落地案例:Agent如何改变行业?
创新体验:
-
Genspark:混合Agent系统(MoA)一键生成特朗普争议事件的三段式连贯视频;
-
秘塔AI:搜索→分析→输出结构化报告(含思维导图/PPT),颠覆传统检索模式。
四、技术挑战:Agent的“天花板”在哪里?
- 规划缺陷:抽象推理能力不足(如金融风控的因果链分析);
- 幻觉控制:专业领域仍存在事实错误(如医疗诊断误判);
- 多Agent协同:任务冲突时缺乏仲裁机制(如20个Agent协作时资源争抢);
- 安全边界:工具调用权限失控风险(如自动转账的安全校验缺失)。 北大团队提出“元规划优化框架(MPO)”部分解决复杂规划问题。
五、未来:Agent将走向何方?
1. 生态范式重构
模型即服务:LLM从“底层引擎”升级为“产品本体”(如OpenAI的Agent SDK);
协议标准化:MCP(工具调用)、A2A(Agent通信)、AG-UI(人机交互)三大协议形成“Agent互联网”。
2. 操作系统级变革
AgentOS雏形:Fellou浏览器整合感知-决策-行动链,实现“一句话操控电脑”;
人机关系再定义:AI从“工具”变为“协作者”(如企业中的“数字员工”团队)。
3. 垂直与通用Agent分化
专用Agent(如Lovart设计Agent)深耕行业Know-How;
通用Agent(如Manus)向“超级助理”演进,目标“一键解决80%日常任务”。
肖睿团队预判:2026年将是“Agent First”时代起点——交互入口从“点击图标”变为“对话目标”。
结语:人与Agent的共生未来
当AI能自主完成“查资料、写代码、做PPT、订机票”的全链条任务,人类价值将更聚焦于:
- 创造性工作(艺术/科学突破);
- 伦理监督(确保AI对齐人类价值观);
- 情感联结(机器无法替代的共情能力)。
正如北大团队所言:“Agent的本质不是替代人,而是让人成为‘人’。”
文章节选: