AI 智能体在 2025 年面临的挑战
AI 智能体在 2025 年面临的挑战
What|AI 智能体在 2025 年面临的三大挑战
- 错误复合效应,因为
- 现实任务流程通常需要 20+步骤,如果全部交给大模型完成,即使每步准确率 95%,整体成功率仅 36%(0.95^20)
- 平方成本诅咒,因为
- 长对话场景下,每次调用都需要重新处理全部上下文
- token 成本呈平方级增长(例:100 轮对话成本可达上百美元,我们也可以看到 cursor、Claude code 这些公司也都在对 token 用量做限制)
- 工具缺失问题,因为
- AI 在智能体系统中实际工作量仅占 30%
- 剩余 70%依赖工具设计(设计 AI 友好的工具、清晰的反馈机制、错误处理、上下文管理等)
把 cloud code 里面的模型换成其他的优质的开源模型试试。跑出来的效果依然非常能打,正是因为它本身的工具体系搭的非常的好。
How|如何应对错误复合效应?
- 将大问题拆分为 3-5 个可独立验证的短步骤
- 在关键节点设置人工检查点
- 失败时可回滚到上一步或通知人工处理
方法就是不追求全自动,而是要把你要解决的大问题拆成 3 到 5 个可以被独立验证的短步骤。而且在关键节点上要设置人工检查和确认的方式。
如果某一步的验证结果有问题,可以通知人类去处理;或者失败了,随时可以回到之前的状态重新执行。
LangGraph这个agent框架就对此实现了human in loop 和 checkpoint 功能
How|如何应对平方成本诅咒?
- 尽量设计无状态模式
- 让 AI 担任"专注工具人"角色
- 单次指令 → 高质量结果 → 立即结束
- 避免多轮对话带来的上下文累积
我们去怎么样解决这个问题呢?那就是尽量设计无状态的模式,不要多轮对话,让智能体尽量做一个专注的工具人。你给他一个明确的指令,他给你一个高质量的结果,然后立刻下班,绝不跟你多聊一句。没有上下文的叠加,也就没有平方成本的诅咒了。
How|如何应对工具缺失问题?
- 加强工具体系建设
- 设计清晰的工具反馈机制
- 成功时:用最少信息传递结果
- 失败时:精准提示错误原因和解决方案
- 平衡信息密度(过少会卡顿,过多浪费 token)
那我们要去怎么样解决这个问题呢?就是要花更多的时间在工具设计上。
当一个工具任务成功的时候,怎么样用最少的信息告诉大模型成功的结果。当一个工具任务失败的时候,怎么样用最少的信息告诉大模型错在哪里
What|构建有效 AI 智能体的核心原则
- 明确界限:定义智能体的具体能力范围和输出标准
- 容错设计:预留 20-40%的错误处理空间
- 成本控制:计算单次交互成本,优选无状态模式
- 可靠性优先:用户只为稳定工具付费,而非全自动噱头
- 人机协同:AI 处理理解与生成,传统逻辑处理执行与状态管理
第一就是要明确界限,你的智能体能做什么,你想让它产出什么样具体的结果。
第二就是要设计好容错和回滚的机制,去处理那些 AI 肯定会犯的 bad case。
第三就是要解决钱的问题,你要算好每次交互的成本是多少,这个成本会不会随着使用量的增加而变化。尽量设计无状态的这种模式
第四点就是要优先考虑可靠性,而不是自主性。用户他们可能会对全自动,一开始会有一些新鲜感,但是他们肯定只会为稳定可靠的工具而付钱。
第五点就建立在稳定可靠的基础上,用 AI 来处理难点部分。比如说像理解意图,生成内容,但用传统的软件的逻辑去处理那些关键的部分,比如说去执行、去处理错误,去做状态管理等等。
可行的智能体应用方向
- ❌ 避免全自动场景:自动写书、全自动炒股
- ✅ 专注辅助工具:语法检查、风格优化、市场监控、财报分析
- 核心定位:严格界定边界、任务专注、成本可控的人类超级辅助工具
所以聊了这么多,你觉得是 AI 智能体没用了吗?不,恰恰相反。我想告诉大家的是,AI 智能体的革命一定会到来。但它的样子绝不是现在那些大 V 吹上天的那种全自动的、通用的、无所不能的那种神话。
我劝你可以忘了那种可以帮你从头到尾写一本书的智能体,那肯定不靠谱。但是一个能帮你检查语法优化风格,然后能提供引用建议的这种写作助手智能体,却能实实在在的帮你把效率提升十倍。
我劝你也忘了那种能帮你全自动炒股的智能,它可能会让你倾家荡产。但是一个能帮你 7 乘 24 小时监控市场信息,分析财报,并且在出现异动的时候第一时间告诉你,然后提供你一些决策依据的投研智能体,可能真的是无价之宝。
我建议大家去构建那些严格界定边界,任务专注、成本可控,并且人类可以掌握的这种超级辅助工具。AI 去处理复杂性,人类去掌握控制权。
原文链接:为什么AI智能体在2025年注定失败?_哔哩哔哩_bilibili