当前位置：首页 > news >正文

AI 学习总结（3）—— AI 智能体零基础入门

news 2025/7/23 8:05:21

一、什么是智能体

智能体指能够自主感知环境、做出决策并执行行动以实现特定目标的智能实体，其核心在于：

自主性：无需人工干预，自动拆解任务（如“买咖啡”分解为定位→选店→支付）
反应性：实时响应环境变化（如自动驾驶遇行人自动刹车）
社会性：多智能体协作（仓储机器人集群调度货物）
进化性：通过数据反馈持续优化策略（京东客服智能体处理18%售后问题）

AI智能体类似于一个虚拟的“助手”或“代理”。它能够听懂你的话、理解你的需求，并帮你完成任务。

和传统的软件程序相比区别如下：

二、智能体发展历程

1、萌芽期（1950s-1980s）

以预设规则驱动的机械自动化时代，代表如ELIZA聊天机器人（1966）通过关键词匹配模拟对话，斯坦福推车（1979）实现基础避障。智能体如同“提线木偶”，仅能执行人工编写的固定指令链，无法适应环境变化，无学习能力是根本局限。

2、感知时代（1990s-2010s）

传感器+机器学习赋予智能体初步环境交互能力：IBM深蓝（1997）依靠决策树战胜棋王，DARPA自动驾驶赛（2004）催生激光雷达导航技术，扫地机器人应用SLAM算法构建地图。但能力严重依赖人工设计特征，工业机器人迁移新场景即失效，仍是“感知强、认知弱”的初级智能。

3、认知革命（2020-2023）

大语言模型（LLM）突破语义理解瓶颈，彻底改变人机交互逻辑：GPT-3（2020）展现零样本推理能力，ChatGPT（2022）实现模糊指令理解与多轮对话，AutoGPT（2023）首次完成“开发网站”等目标的自动拆解。智能体从“工具”跃升为“思考者”，理解人类意图成为核心能力。

4、自主进化（2024至今）

LLM+Agent框架+具身智能融合引爆质变：多模态模型（GPT-4V）让智能体“看懂世界”，ReAct框架实现“思考-行动”闭环，Figure 01机器人（2024）借视觉+触觉学习煮咖啡。产业级应用爆发——特斯拉FSD V12纯视觉决策、AlphaFold 3预测蛋白质结构，自主决策与跨场景执行能力逼近人类。

三、目前流行的智能体构建平台

目前主要分三类：面向个人开发者的零代码平台（如Coze）、企业级解决方案（如百度千帆）、以及开发者导向的开源框架（如Dify），它们之前的区别与联系如下：

四、智能体搭建的流程

1、梳理需求

在做智能体之前，我们应该明确我们做这个智能体是为了解决什么问题，这里的重点是梳理出那些重复性的、机械化的、不需要太多思考的工作，越详细越好，梳理出详细的业务流程，标注从起点到终点需要经过的每个环节。

2、软件选型

根据场景，就是你的使用需求，选择合适的开发平台、大模型和工具。开发平台：一般来说，对于轻量级的任务，建议使用扣子、腾讯元器等零代码平台。大模型：先用最强模型（如GPT-4）建立性能基准，再逐步替换为小模型（如DeepSeek-R1），测试效果衰减是否可接受。

3、明确智能体的人设与逻辑，设计提示工程

设计智能体的人设与逻辑是构建高效、可控AI系统的核心，而提示工程则是实现这一目标的关键技术，好的提示词能够大大提升大模型输出的准确性，帮助智能体准确地理解任务，提高大模型的输出质量，减少 token 的消耗，降低成本。可以帮助 AI Agent 理解上下文，确保对话的连贯性。

现在主要有CRISPE、BROKE、ICIO等比较好用的框架，大体就是跟智能体说清楚背景，让它代入角色，按照你想要的类型、格式、风格、长短等来输出内容，免得它不知所措或者天马行空。

4、明确各个工作流与节点的输入输出，配置信息等

1）输入

是智能体执行任务的起点，需明确数据来源与格式

用户输入：文本、文件等
上下文输入：历史会话记录
系统触发输入：通过调用api，如飞书文件夹token

在进行工作流设计时，输入要精简，避免冗余参数，优先提取关键字段

2）输出

是智能体执行的最终结果，需满足可解析性与集成需求

直接响应：文本回复（客服回答）、图文卡片（商品推荐）
结构化数据：API指令（如生成退货码）、文件（生成的Markdown文章）
动作触发：调用外部服务（发送短信、创建飞书文档）

在进行工作流设计时，输出尽量结构化，统一JSON格式，方便后续系统集成。

5、构建智能体并调试

前面我们已经选择了开发平台、大模型和工具，并制作出了各个工作流、输入、输出、配置，这一步是将上述流程再开发平台上进行构建，配置好后，通过不断调整提示词和大模型，调试出符合我们需求的智能体。

6、发布智能体

完成调试后，我们可以将智能体发布到各种渠道中，在终端应用中使用智能体。目前支持将智能体发布到飞书、微信、抖音、豆包等多个渠道中，你可以根据个人需求和业务场景选择合适的渠道。例如售后服务类智能体可发布至微信客服。

五、智能体应用

以下是智能体常见的应用领域

看完智能体的应用领域，或许你对智能体的应用还是没有直观的感受，毕竟，这些说的好像离我们生活不是很近，日常生活中，我们也用不上。那么，在日常生活中，我们什么时候会用到智能体呢？答案是：如果你发现你一直重复干着一件事情，那么，或许智能体就可以帮你实现，下面举例说明让你更有实感。

1、如果你想提取视频文案，这时候可以使用“视频提取文案”智能体
2、如果你想设计海报，可以使用“一键海报设计”智能体

3、如果你想做一个书单自媒体账号，你可以使用“一键生成爆款书单视频模版”智能体

http://www.dtcms.com/a/292569.html

相关文章：

python学习-读取csv大文件

SSL VPN技术

拼多多视觉算法面试30问全景精解

分布在内侧内嗅皮层（MEC）的边界细胞对NLP中的深层语义分析的积极影响和启示

ESP32-Cam三脚架机器人：DIY你的智能移动监控平台

性能测试-从0到1搭建性能测试环境Jmeter+Grafana+influxDB+Prometheus+Linux

Redis RDB 持久化实现原理，请求是否阻塞，如何处理阻塞请求

【运维】SGLang 安装指南

Vue的ubus emit/on使用

嵌入式 Qt 开发：实现开机 Logo 和无操作自动锁屏

项目集成zustand后，如何构建和使用，以及devtools函数。

新能源工厂的可视化碳中和实验：碳足迹追踪看板与能源调度策略仿真

React 项目性能瓶颈分析

SCSAI项目管理智能体设计方案核心设计思路：分层开放架构

GitOps实践：基于Argo CD的Kubernetes集群应用持续交付实战指南

智慧能源驱动数字孪生重介选煤新模式探索

力扣 78.子集

【element-ui el-table】多选表格勾选时默认勾选了全部，row-key绑定异常问题解决

EasyMan 数字人服务全面焕新，交互型AI数字人助推孪生体验全新升级

等保2.0详解：筑牢数字时代安全基石

【GIT】基础知识及基本应用

如何加固Endpoint Central服务器的安全？（上）

Linux驱动-中断-共享队列

【size_t 类型转换】ans = max(ans, (int)occ.size())；

公司内部网址怎么在外网打开？如何让外网访问内网的网站呢？

qtbase5-dev库使用介绍

5.6 指令流水线 (答案见原书 P267)

windows10设置了软件开机自启,为啥不自启动

iOS 抓包工具有哪些？场景导向下的工具推荐与实战对比

Vue3 面试题及详细答案120道（16-30 ）