多Agent技术发展与进化
01
人工智能与第一性原理
大家好,今天我想和大家讨论一下人工智能中的第一性原理,以及它在我们日常技术中的应用。
首先,什么是第一性原理?简单来说,第一性原理就是从最基本的事实或假设出发,通过逻辑推理得出结论。在人工智能领域,第一性原理非常重要,因为它帮助我们理解和模拟人类的认知和行为。
第一性原理的重要性
掌握第一性原理有多个原因。首先,它是我们后续开发和协作的基础。无论是引擎的协作还是多种技术的协作,都是基于第一性原
图像识别的进化
图像识别技术的进化可以很好地体现第一性原理的重要性。图像识别的重大突破之一来源于1981年诺贝尔医学奖的研究。这个研究分析了人类视觉神经的传导机制,发现我们的视觉皮层是分层级的。
当图像从我们的眼睛进入大脑时,信息处理是分层级进行的:
-
第一级:模糊的形状和颜色。
-
第二级:具体的特征。
-
第三级:具体的识别。
有了这个理论依据后,我们对图像识别的神经算法进行了改进。
从浅层到深度学习
在早期,我们的图像识别算法通常只有三层结构:输入层、中间的隐层和输出层。然而这种结构的识别准确率有限。通过借鉴视觉皮层的分层机制,我们引入了多层结构的神经网络,即深度学习。
深度学习神经网络通过增加多层隐层,大大提高了图像识别的准确率。这一进化充分展示了第一性原理在技术发展中的关键作用。
02
基于第一性原理的发展轨迹
在探讨Agent的协作时,实际上是在讨论一种人的活动的组织方式。为什么这么说呢?我们可以通过一个例子来更好地理解这一点。
第一阶段:个人手艺人
最开始可能是个人手艺人,他们独自完成所有工作。这种单打独斗的方式虽然有其独特性,但效率较低,每个产品可能都不一样。
第二阶段:小作坊或工作室
接下来是小作坊或工作室的阶段。这个阶段中,有了一群人共同协作,开始出现分工。分工是进入现代工业的起步标志,每个人在各自的专业领域中完成特定任务。同时,小作坊会有专门的人进行管理。
第三阶段:流水线
第三个阶段是流水线的出现。流水线的概念是从小作坊转变为工厂的标志,要求大批量的生产。流水线是20世纪初工业革命后的重要发展,极大地提高了生产效率。
第四阶段:小型公司的协作第四个阶段是小型公司的协作。这可以看作是现代工厂和企业制造部门的雏形。在这个阶段,不仅生产质量和产量都得到了成倍的提升,企业的组织和管理也更加完善。
第五阶段:现代企业的综合协作
第五个阶段是现代企业的综合协作。如今,许多小型公司通过整合成为一个部门或事业群。在这个阶段,企业不仅专注于生产,还包括前期调研、市场营销和零售布局等多方面的工作。通过这些综合性的协作,企业能够更有效地推广和销售产品。
03
Agent 协作技术发展轨迹
第一阶段:手艺人
手艺人代表人的脑力执行特点,其门槛较低,每个人都可以做这个事情,但要做到最好的人却寥寥无几。Agent技术代表的是算法、算力和模态理解。当前的大模型技术就是在这一阶段表现出来的,当算法突破瓶颈后,将显现出稀缺性,超过其他模型。Agent 技术一般用于聊天、总结和翻译,可以直接输出知识。
第二阶段:工作室
工作室的特点是有一个灵魂人物(例如小老板)负责产品立项和设计决策,并将具体任务分发给关键的手艺人。工作室产品通常是定制化的,结合用户内容进行定制。关键技术包括意图模型和工具使用。业界例如豆包元宝、频道问问等AI产品都在进行特定内容的上下文处理,进行总结、问答和聊天等娱乐化功能。
第三阶段:流水线
流水线的特点是批量化执行和拉线管理。在工厂里,每个流水线都有线管理人员监督工作进度,确保生产环节顺利进行。对应的Agent 技术包括任务编排、管理和AI-Devops。举例来说,任务分发后可通过多种方式执行并回收结果。产品示例包括豆包的Coze平台和Dify平台。
第四阶段:小型组织
小型组织类似现代工厂的制造部门,关键技术是规划决策算法和自动化技术。任务在这一阶段可能是模糊的,需要规划和决策算法来优化产品。自动化技术结合MCP提高效率。例如,规划决策算法用于分析问题、数据和工具选择,自动化技术使任务执行更快。
第五阶段:现代企业组织
现代企业组织有多个部门协助,关键在于持续稳定的角色驱动。当前所有上下文基于用户输入启动,但组织需持续运转,实时调整数据输入和反馈。关键技术包括数据共享和自我决策驱动,通过接入更多数据实现自我迭代。所以现在的环境感知在Agent上的应用还比较少,Agent协作的未来形态应该是持续运营状态,基于持续数据输入可以对自身进行迭代。
例如,PM和DS同学作为两个Agent每天交流信息,他们可能共同开了个会议,目标更新了。 当这个目标需要两个角色共同完成时,Agent集群自我编排两个Agent整合成新的高维Agent来实现目标。(类似项目组织的概念)
企业组织通过OKR驱动目标划分,依据部门定位编排目标。当外面的产品或技术出现变化时,企业会自己更新组织来适应。 对于Agent协作来说,到达企业级别的Agent会自行通过决策基于已有基础创建新的Agent来适应变化,然后持续的外部数据输入后能更新迭代进行编排。
总结 各阶段的技术演进展示了从手艺人到现代企业组织的逐步发展,每个阶段都有相应的技术和应用场景。应用的选择根据使用场景和用户规模判断,不一定每个应用都要走到最后阶段。
04
Agent能力概述
Agent的能力主要可以分为以下几个部分:
-
算力;
-
知识记忆;
-
预测功能;
-
动作执行。
知识记忆 (Memory and Knowledge)
Agent的大脑负责记忆和知识的获取。知识记忆通常通过微调训练或者特定方案(如RAG的方案)来实现。这些方法使Agent能够在不同情况下调用相关知识。
预测功能
对于预测任务,Agent可以将图像、多模态数据等转换成文本形式,然后进行预测。这种转换使得Agent在处理不同类型的数据时更加灵活和高效。
动作执行 (Action)
动作执行是通过工具能力来实现的,例如API调用、SQL调用以及机械手的操作等。这些调用都属于Agent的动作执行部分。具体来说,工具能力主要分为以下几种:
-
API调用
-
SQL调用
-
机械手操作
-
...
工具能力
在工具能力方面,举一个例子,主要是通过 ReAct 的方案来实现API调用和搜索。这些都属于工具能力的一部分。
-
MCP (万能插口)
-
MCP的概念可以理解为一个万能的插口。目前,所有的工具调用都可能各自有各自的沙箱板,而MCP则作为一个通用接口,使得所有工具都能插上去,从而提高了兼容性和灵活性。
-
-
RAG (知识补充)
-
RAG的概念是一个知识补充机制,用于增强Agent的知识库。
-
总结 当前的Agent通过整合计算能力、知识记忆、预测功能和动作执行等多个方面,能够高效地与外部用户进行交互,并完成复杂的任务。这些能力的实现依赖于各种工具和接口的使用,例如API调用、SQL调用和机械手操作等。通过MCP和Read等机制,Agent能够更加灵活地调用和补充知识,从而提升整体性能。
05
未来的思考
这些想法都是我个人的见解,没有参考任何资料,可能不完全正确,大家可以一起讨论。
当前的协作方式
1、层级结构:现代的协作方式通常基于层级结构。用户输入信息后,系统(Agent)会规划执行的工具或任务,然后由各个子系统(agents)继续执行。这一过程是层级化的。
网状结构的概念
2、网络状的社会组织:未来的发展可能更倾向于网状结构,即各个节点(如个人、公司、社区等)可以互相通信。例如,当我提出一个问题时,系统会通过多节点传导,最终得到知识反馈。
进化点
3、上游与下游关系的变化:
-
传统的系统(Agent)通常通过人为分配任务。
-
未来的系统可能会实现更自主的上游与下游关系。例如,当我提出一个问题时,如果系统发生了变化,它会自动通知相关人员进行下一步操作。
4、信息共享网络:
-
为了实现上述网状结构,信息共享是必不可少的。
-
举个例子:当我问AI PM(项目经理)某个问题,如软件版本发布情况、覆盖率等,AI PM可以帮我查到部分信息,但需要进一步的信息时,系统会自动查询其他相关节点(如AI DS)(数据科学)并整合反馈,而不需要我重复输入问题。
5、原突变与自我进化:
-
系统应具备自我进化和自我编排的能力。例如,当系统发现某个问题没有得到有效回答时,它可以自动创建新的子系统(agents)来解决问题。
-
举个例子:如果我问“QQ在微博上的热搜是什么?”而系统无法回答,它可以自动生成用于查询微博热搜的代码,并创建相应的agent。第二天当我再问同样的问题时,系统已经具备了解答的能力。
结论
通过以上几点,我们可以看到未来系统的发展方向可能更加自主、网络化和智能化。信息共享和自我进化将是关键因素,使得系统能够更高效地处理复杂问题。
06
未来技术的发展与应用
未来技术的发展与应用将会有几个重要的方向,包括大模型的专业化、指令库的应用、模型多模态能力的提升以及更少的人类指令输入等方面。
1. 大模型与基础设施的专业化
随着技术的发展,大模型和基础设施会变得更加专业化。过去,软件工程主要集中在代码方面,但未来会更多地涉及到指令库的概念。指令库可以包含一些“魔法指令”,用户不需要自己去查找或编写指令,只需调用指令库中的现有指令即可。例如,用户想要创建一个特定的引擎,指令库可以自动生成相应的指令并注入到系统中,从而简化了操作过程。
2. 模型的多模态能力
未来的模型将会整合更多的模态信息。例如,谷歌最新的视频生成技术可以同时生成语音和视频内容。未来可能会有更多的信息被生成,如视频中的物体坐标等。这种多模态的信息输入将使模型更加智能和全面。
3. 更少的人类指令输入(Less Prompt)
随着技术的进步,人类输入的指令会越来越少。例如,代码补全工具从最初的按回车补全下一行代码,到按Tab键补全整个文档的内容。这种趋势表明,未来用户输入的指令会更少,系统会根据少量的输入自动生成完整的内容。
-
基于代码补全的概念
-
Cursor前的代码补全概念:
-
-
功能:按下回车键后,自动补全下一行代码。
-
-
Curosr 概念:
-
-
功能:按下 Tab 键后,不仅全文补全,自动预测下一个要补全的代码位置,还会根据整个工程进行编程补全。
-
-
-
优势:减少用户输入的内容。
-
-
-
应用于客户端应用的智能推荐(思路)
-
操作行为分析:
-
通过 Less Prompt 的概念引导,我们可以减少用户的操作行为来执行指令。
-
示例:简化用户操作,可能只需一步点击即可完成任务(类似补全操作路径的概念)
-
-
4. 商业应用中的数据共享
目前,AI在生成结果时,往往缺乏上下文数据的共享。例如,当用户提出多个问题时,AI需要记录这些问题并基于这些记录推荐相关问题和答案。未来,数据共享和整合将会更加重要,以便AI能够更好地理解用户的需求并生成相应的结果。
5. 更多数据(More Data)
未来的AI模型将会依赖更多的数据进行训练。例如,医疗领域是一个可能爆发的应用场景。医疗行业每年投入大量资金,而富人对延长寿命的需求使得这一领域有很大的发展潜力。具体应用如胃肠道胶囊摄像头,可以通过摄像头拍摄上千张图片,然后基于AI分析这些图片,检测消化道是否有息肉或其他问题。这样可以大大减少人工分析的时间和成本,提高诊断效率。
More Data 概念
-
定义:在模型中输入更多的数据,使其能够更好地学习和理解用户需求。
-
实现:增加数据量以提高模型的性能和准确性。
通过以下策略,我们可以显著提升用户体验:
-
减少用户指令:利用智能补全功能和历史数据推荐。
-
优化 AI 推荐:共享状态数据,提高问题生成的准确性。
-
增加数据量:输入更多数据以增强模型学习能力。
6. 技术爆发的非线性应用
技术的爆发往往是突变性的、非线性的。例如,1981年视觉皮层分层基础研究获得诺贝尔医学奖,但直到1990年图像识别技术在才开始爆发,自然语言大模型的概念应用也是如此。
引用个老图展示人工智能各领域的发展状态
图源网络
07
总结
未来技术的发展将会集中在大模型的专业化、多模态能力的提升、更少的人类指令输入、数据共享和更多的数据应用上。这些趋势将会推动各个领域的技术进步,特别是在医疗等高投入的领域,可能会有更多的突破和应用。
另外,不同的Agent协作技术阶段都有其存在的意义,并不是所有技术都必须演进到最后阶段。 这才构成了我们现在的社会活动。
原文链接:AI智能体全面爆发:一文吃透多Agent技术发展与进化