当前位置：首页 > news >正文

AI 智能体基本概念与架构

news 2025/10/4 16:33:37

智能体基本概念与架构

智能体（AI Agents或Agents）是指能够 自主感知环境、做出决策并执行行动的系统或程序 。根据IBM的定义，智能体是“能够通过设计其工作流和利用可用工具，代表用户或其他系统自主执行任务的系统或程序”[IBM]。英伟达则将智能体描述为“AI 智能体是先进的 AI 系统，旨在根据高级目标自主进行推理，制定计划并执行复杂任务”，代表了“从简单自动化向能够管理复杂工作流的自主系统过渡”的演进方向[NVIDIA]。

大家都知道，当前的大模型（如 GPT-4o、DeepSeek）在回答问题和逻辑推理方面表现出色，但存在一个明显限制：无法感知或改变外界环境。比如，让 GPT-4o 帮忙写一个贪吃蛇游戏，它能生成代码，却无法自主将代码写入文件；若你已有部分贪吃蛇代码，想让模型基于现有代码优化，也必须手动将代码复制给模型 —— 这就是大模型 “无法感知外界环境” 的体现。

要解决这个问题，只需给大模型搭配对应的工具：像读写文件、查看文件列表、运行终端命令等工具，这些工具就像大模型的 “感官和四肢”。有了工具后，大模型能自主查询已有文件、写入代码、运行程序，整个过程无需人工干预，实现完全自动化。这种 “大模型 + 工具” 组合而成、能感知和改变外界环境的智能程序，就是 AI Agent，通常用 “机器人” 图标表示，与大模型的 “大脑” 图标形成对比，象征其具备 “独立做事” 的能力。

AI Agent 的类型丰富，涵盖多个领域：比如编程类 Agent 可用于开发程序，还有能制作 PPT、进行深度搜索的 Agent 等，不同类型的 Agent 擅长的领域各不相同。举两个具体例子：一是知名的编程 Agent “Cursor”，用户只需提交编程任务，它就会调用大模型和工具生成代码，直至任务完成，用户最多只需点击 “确定” 按钮；二是此前热门的 Agent “Manus”，若用户希望它对比几款手机的性能、拍照能力，Manus 会自主生成执行计划、搜索浏览相关网页，最终将报告整理成页面展示给用户，全程无需人工插手。

智能体的核心特性

判断一个程序是不是智能体，看这3点。

目标驱动：能理解明确的任务目标，比如“帮我整理本周邮箱里的工作周报”“生成一篇关于AI智能体的小红书文案”。
自主决策：不需要人干预，能自己规划执行步骤。比如整理周报时，它会自己决定“先筛选邮件关键词→提取周报附件→合并内容→生成总结”。
工具交互：能调用外部工具完成自身做不到的事，比如调用“邮件读取工具”获取邮件、调用“PDF解析工具”提取附件内容、调用“大模型API”生成文案。

智能体的经典架构

AI智能体（AI Agent）本质是能自主理解目标、规划步骤、调用工具，并执行任务以达成结果的程序，核心是“自主性”，不用人一步一步指令。其架构则是实现这种自主性的“骨架”，由4个核心模块组成。这4个模块像“大脑+手脚+记忆+眼睛”，4个核心模块，缺一不可，共同支撑智能体的自主运行，具体功能如下：

模块名称	功能	常用工具	典型场景
感知模块	负责收集和处理外部信息，为决策提供数据基础	网页爬虫、传感器（如摄像头、麦克风等）、自然语言处理工具（用于解析用户输入）	智能客服接收用户咨询消息、自动驾驶车辆通过摄像头感知路况、智能助手听取用户语音指令
决策模块	分析目标，规划执行步骤，决定智能体的行动方式，是智能体的“大脑”	大语言模型（如 GPT-4、Qwen-72B 等）、推理框架（如 ReAct）、规则引擎	智能投资分析师分析金融数据并制定投资策略、法律咨询智能体分析合同条款并识别风险、智能体规划生成资讯摘要的步骤、分析 “生成资讯摘要” 的目标，规划出 “抓取新闻→提取关键信息→整合语言→输出摘要” 的步骤
记忆模块	存储历史信息和经验，支持上下文关联和知识复用	向量数据库（如 FAISS）、Redis 缓存、知识库管理系统	智能客服记住用户之前的咨询偏好、智能体记住历史任务执行结果以便后续参考、智能财务助手存储税率等知识、记住用户之前要求 “摘要要精简（不超过 300 字）”，后续生成时自动遵循该规则
执行模块	根据决策结果调用外部工具或执行具体动作，是智能体的“手脚”	API 调用工具（如调用支付 API 完成交易、调用物流 API 查询物流信息）、自动化脚本、机器人控制程序	全自动客服调用退款 API 完成退款操作、质检智能体控制机械臂分拣次品、智能体调用文档生成工具输出最终报告、调用 “大模型 API” 提取新闻关键信息，调用 “文档生成工具” 输出最终的摘要文档