AI 智能体基本概念与架构
智能体基本概念与架构
智能体(AI Agents或Agents)是指能够 自主感知环境、做出决策并执行行动的系统或程序 。根据IBM的定义,智能体是“能够通过设计其工作流和利用可用工具,代表用户或其他系统自主执行任务的系统或程序”[IBM]。英伟达则将智能体描述为“AI 智能体是先进的 AI 系统,旨在根据高级目标自主进行推理,制定计划并执行复杂任务”,代表了“从简单自动化向能够管理复杂工作流的自主系统过渡”的演进方向[NVIDIA]。
大家都知道,当前的大模型(如 GPT-4o、DeepSeek)在回答问题和逻辑推理方面表现出色,但存在一个明显限制:无法感知或改变外界环境。比如,让 GPT-4o 帮忙写一个贪吃蛇游戏,它能生成代码,却无法自主将代码写入文件;若你已有部分贪吃蛇代码,想让模型基于现有代码优化,也必须手动将代码复制给模型 —— 这就是大模型 “无法感知外界环境” 的体现。
要解决这个问题,只需给大模型搭配对应的工具:像读写文件、查看文件列表、运行终端命令等工具,这些工具就像大模型的 “感官和四肢”。有了工具后,大模型能自主查询已有文件、写入代码、运行程序,整个过程无需人工干预,实现完全自动化。这种 “大模型 + 工具” 组合而成、能感知和改变外界环境的智能程序,就是 AI Agent,通常用 “机器人” 图标表示,与大模型的 “大脑” 图标形成对比,象征其具备 “独立做事” 的能力。
AI Agent 的类型丰富,涵盖多个领域:比如编程类 Agent 可用于开发程序,还有能制作 PPT、进行深度搜索的 Agent 等,不同类型的 Agent 擅长的领域各不相同。举两个具体例子:一是知名的编程 Agent “Cursor”,用户只需提交编程任务,它就会调用大模型和工具生成代码,直至任务完成,用户最多只需点击 “确定” 按钮;二是此前热门的 Agent “Manus”,若用户希望它对比几款手机的性能、拍照能力,Manus 会自主生成执行计划、搜索浏览相关网页,最终将报告整理成页面展示给用户,全程无需人工插手。
智能体的核心特性
判断一个程序是不是智能体,看这3点。
- 目标驱动:能理解明确的任务目标,比如“帮我整理本周邮箱里的工作周报”“生成一篇关于AI智能体的小红书文案”。
- 自主决策:不需要人干预,能自己规划执行步骤。比如整理周报时,它会自己决定“先筛选邮件关键词→提取周报附件→合并内容→生成总结”。
- 工具交互:能调用外部工具完成自身做不到的事,比如调用“邮件读取工具”获取邮件、调用“PDF解析工具”提取附件内容、调用“大模型API”生成文案。
智能体的经典架构
AI智能体(AI Agent)本质是能自主理解目标、规划步骤、调用工具,并执行任务以达成结果的程序,核心是“自主性”,不用人一步一步指令。其架构则是实现这种自主性的“骨架”,由4个核心模块组成。这4个模块像“大脑+手脚+记忆+眼睛”,4个核心模块,缺一不可,共同支撑智能体的自主运行,具体功能如下:
模块名称 | 功能 | 常用工具 | 典型场景 |
---|---|---|---|
感知模块 | 负责收集和处理外部信息,为决策提供数据基础 | 网页爬虫、传感器(如摄像头、麦克风等)、自然语言处理工具(用于解析用户输入) | 智能客服接收用户咨询消息、自动驾驶车辆通过摄像头感知路况、智能助手听取用户语音指令 |
决策模块 | 分析目标,规划执行步骤,决定智能体的行动方式,是智能体的“大脑” | 大语言模型(如 GPT-4、Qwen-72B 等)、推理框架(如 ReAct)、规则引擎 | 智能投资分析师分析金融数据并制定投资策略、法律咨询智能体分析合同条款并识别风险、智能体规划生成资讯摘要的步骤、分析 “生成资讯摘要” 的目标,规划出 “抓取新闻→提取关键信息→整合语言→输出摘要” 的步骤 |
记忆模块 | 存储历史信息和经验,支持上下文关联和知识复用 | 向量数据库(如 FAISS)、Redis 缓存、知识库管理系统 | 智能客服记住用户之前的咨询偏好、智能体记住历史任务执行结果以便后续参考、智能财务助手存储税率等知识、记住用户之前要求 “摘要要精简(不超过 300 字)”,后续生成时自动遵循该规则 |
执行模块 | 根据决策结果调用外部工具或执行具体动作,是智能体的“手脚” | API 调用工具(如调用支付 API 完成交易、调用物流 API 查询物流信息)、自动化脚本、机器人控制程序 | 全自动客服调用退款 API 完成退款操作、质检智能体控制机械臂分拣次品、智能体调用文档生成工具输出最终报告、调用 “大模型 API” 提取新闻关键信息,调用 “文档生成工具” 输出最终的摘要文档 |
智能体的工作流程
4个模块如何协同运行?以“自动生成天气出行建议”的智能体为例,完整流程如下:
- 感知:接收用户输入“北京明天的出行建议”,同时调用“天气API”获取北京明天的天气数据(温度、是否下雨)。
- 决策:分析目标是“出行建议”,结合天气数据规划步骤——“判断是否下雨→推荐衣物→提示是否需要带雨具”。
- 记忆:调取历史记录,发现用户之前提到“怕热”,后续推荐衣物时优先推荐透气款。
- 执行:调用“文本生成工具”,结合天气数据和历史偏好,输出“北京明天28℃,多云,建议穿短袖+薄外套,无需带雨具”。