当前位置：首页 > news >正文

多Agent技术发展与进化

news 2025/10/4 3:18:41

01

人工智能与第一性原理

大家好，今天我想和大家讨论一下人工智能中的第一性原理，以及它在我们日常技术中的应用。

首先，什么是第一性原理？简单来说，第一性原理就是从最基本的事实或假设出发，通过逻辑推理得出结论。在人工智能领域，第一性原理非常重要，因为它帮助我们理解和模拟人类的认知和行为。

第一性原理的重要性

掌握第一性原理有多个原因。首先，它是我们后续开发和协作的基础。无论是引擎的协作还是多种技术的协作，都是基于第一性原

图像识别的进化

图像识别技术的进化可以很好地体现第一性原理的重要性。图像识别的重大突破之一来源于1981年诺贝尔医学奖的研究。这个研究分析了人类视觉神经的传导机制，发现我们的视觉皮层是分层级的。

当图像从我们的眼睛进入大脑时，信息处理是分层级进行的：

第一级：模糊的形状和颜色。
第二级：具体的特征。
第三级：具体的识别。

有了这个理论依据后，我们对图像识别的神经算法进行了改进。

从浅层到深度学习

在早期，我们的图像识别算法通常只有三层结构：输入层、中间的隐层和输出层。然而这种结构的识别准确率有限。通过借鉴视觉皮层的分层机制，我们引入了多层结构的神经网络，即深度学习。

深度学习神经网络通过增加多层隐层，大大提高了图像识别的准确率。这一进化充分展示了第一性原理在技术发展中的关键作用。

02

基于第一性原理的发展轨迹

在探讨Agent的协作时，实际上是在讨论一种人的活动的组织方式。为什么这么说呢？我们可以通过一个例子来更好地理解这一点。

第一阶段：个人手艺人

最开始可能是个人手艺人，他们独自完成所有工作。这种单打独斗的方式虽然有其独特性，但效率较低，每个产品可能都不一样。

第二阶段：小作坊或工作室

接下来是小作坊或工作室的阶段。这个阶段中，有了一群人共同协作，开始出现分工。分工是进入现代工业的起步标志，每个人在各自的专业领域中完成特定任务。同时，小作坊会有专门的人进行管理。

第三阶段：流水线

第三个阶段是流水线的出现。流水线的概念是从小作坊转变为工厂的标志，要求大批量的生产。流水线是20世纪初工业革命后的重要发展，极大地提高了生产效率。

第四阶段：小型公司的协作第四个阶段是小型公司的协作。这可以看作是现代工厂和企业制造部门的雏形。在这个阶段，不仅生产质量和产量都得到了成倍的提升，企业的组织和管理也更加完善。

第五阶段：现代企业的综合协作

第五个阶段是现代企业的综合协作。如今，许多小型公司通过整合成为一个部门或事业群。在这个阶段，企业不仅专注于生产，还包括前期调研、市场营销和零售布局等多方面的工作。通过这些综合性的协作，企业能够更有效地推广和销售产品。

03

Agent 协作技术发展轨迹

第一阶段：手艺人

手艺人代表人的脑力执行特点，其门槛较低，每个人都可以做这个事情，但要做到最好的人却寥寥无几。Agent技术代表的是算法、算力和模态理解。当前的大模型技术就是在这一阶段表现出来的，当算法突破瓶颈后，将显现出稀缺性，超过其他模型。Agent 技术一般用于聊天、总结和翻译，可以直接输出知识。

第二阶段：工作室

工作室的特点是有一个灵魂人物（例如小老板）负责产品立项和设计决策，并将具体任务分发给关键的手艺人。工作室产品通常是定制化的，结合用户内容进行定制。关键技术包括意图模型和工具使用。业界例如豆包元宝、频道问问等AI产品都在进行特定内容的上下文处理，进行总结、问答和聊天等娱乐化功能。

第三阶段：流水线

流水线的特点是批量化执行和拉线管理。在工厂里，每个流水线都有线管理人员监督工作进度，确保生产环节顺利进行。对应的Agent 技术包括任务编排、管理和AI-Devops。举例来说，任务分发后可通过多种方式执行并回收结果。产品示例包括豆包的Coze平台和Dify平台。

第四阶段：小型组织

小型组织类似现代工厂的制造部门，关键技术是规划决策算法和自动化技术。任务在这一阶段可能是模糊的，需要规划和决策算法来优化产品。自动化技术结合MCP提高效率。例如，规划决策算法用于分析问题、数据和工具选择，自动化技术使任务执行更快。

第五阶段：现代企业组织

现代企业组织有多个部门协助，关键在于持续稳定的角色驱动。当前所有上下文基于用户输入启动，但组织需持续运转，实时调整数据输入和反馈。关键技术包括数据共享和自我决策驱动，通过接入更多数据实现自我迭代。所以现在的环境感知在Agent上的应用还比较少，Agent协作的未来形态应该是持续运营状态，基于持续数据输入可以对自身进行迭代。

例如，PM和DS同学作为两个Agent每天交流信息，他们可能共同开了个会议，目标更新了。当这个目标需要两个角色共同完成时，Agent集群自我编排两个Agent整合成新的高维Agent来实现目标。（类似项目组织的概念）

企业组织通过OKR驱动目标划分，依据部门定位编排目标。当外面的产品或技术出现变化时，企业会自己更新组织来适应。对于Agent协作来说，到达企业级别的Agent会自行通过决策基于已有基础创建新的Agent来适应变化，然后持续的外部数据输入后能更新迭代进行编排。

总结各阶段的技术演进展示了从手艺人到现代企业组织的逐步发展，每个阶段都有相应的技术和应用场景。应用的选择根据使用场景和用户规模判断，不一定每个应用都要走到最后阶段。

04

Agent能力概述

Agent的能力主要可以分为以下几个部分：

算力；
知识记忆；
预测功能；
动作执行。

知识记忆 (Memory and Knowledge)

Agent的大脑负责记忆和知识的获取。知识记忆通常通过微调训练或者特定方案（如RAG的方案）来实现。这些方法使Agent能够在不同情况下调用相关知识。

预测功能

对于预测任务，Agent可以将图像、多模态数据等转换成文本形式，然后进行预测。这种转换使得Agent在处理不同类型的数据时更加灵活和高效。

动作执行 (Action)

动作执行是通过工具能力来实现的，例如API调用、SQL调用以及机械手的操作等。这些调用都属于Agent的动作执行部分。具体来说，工具能力主要分为以下几种：

API调用
SQL调用
机械手操作
...

工具能力

在工具能力方面，举一个例子，主要是通过 ReAct 的方案来实现API调用和搜索。这些都属于工具能力的一部分。

MCP (万能插口)
- MCP的概念可以理解为一个万能的插口。目前，所有的工具调用都可能各自有各自的沙箱板，而MCP则作为一个通用接口，使得所有工具都能插上去，从而提高了兼容性和灵活性。
RAG (知识补充)
- RAG的概念是一个知识补充机制，用于增强Agent的知识库。

总结当前的Agent通过整合计算能力、知识记忆、预测功能和动作执行等多个方面，能够高效地与外部用户进行交互，并完成复杂的任务。这些能力的实现依赖于各种工具和接口的使用，例如API调用、SQL调用和机械手操作等。通过MCP和Read等机制，Agent能够更加灵活地调用和补充知识，从而提升整体性能。

05

未来的思考

这些想法都是我个人的见解，没有参考任何资料，可能不完全正确，大家可以一起讨论。

当前的协作方式

1、层级结构：现代的协作方式通常基于层级结构。用户输入信息后，系统（Agent）会规划执行的工具或任务，然后由各个子系统（agents）继续执行。这一过程是层级化的。

网状结构的概念

2、网络状的社会组织：未来的发展可能更倾向于网状结构，即各个节点（如个人、公司、社区等）可以互相通信。例如，当我提出一个问题时，系统会通过多节点传导，最终得到知识反馈。

进化点

3、上游与下游关系的变化：

传统的系统（Agent）通常通过人为分配任务。
未来的系统可能会实现更自主的上游与下游关系。例如，当我提出一个问题时，如果系统发生了变化，它会自动通知相关人员进行下一步操作。

4、信息共享网络：

为了实现上述网状结构，信息共享是必不可少的。
举个例子：当我问AI PM（项目经理）某个问题，如软件版本发布情况、覆盖率等，AI PM可以帮我查到部分信息，但需要进一步的信息时，系统会自动查询其他相关节点（如AI DS）（数据科学）并整合反馈，而不需要我重复输入问题。

5、原突变与自我进化：

系统应具备自我进化和自我编排的能力。例如，当系统发现某个问题没有得到有效回答时，它可以自动创建新的子系统（agents）来解决问题。
举个例子：如果我问“QQ在微博上的热搜是什么？”而系统无法回答，它可以自动生成用于查询微博热搜的代码，并创建相应的agent。第二天当我再问同样的问题时，系统已经具备了解答的能力。

结论

通过以上几点，我们可以看到未来系统的发展方向可能更加自主、网络化和智能化。信息共享和自我进化将是关键因素，使得系统能够更高效地处理复杂问题。

06

未来技术的发展与应用

未来技术的发展与应用将会有几个重要的方向，包括大模型的专业化、指令库的应用、模型多模态能力的提升以及更少的人类指令输入等方面。

1. 大模型与基础设施的专业化

随着技术的发展，大模型和基础设施会变得更加专业化。过去，软件工程主要集中在代码方面，但未来会更多地涉及到指令库的概念。指令库可以包含一些“魔法指令”，用户不需要自己去查找或编写指令，只需调用指令库中的现有指令即可。例如，用户想要创建一个特定的引擎，指令库可以自动生成相应的指令并注入到系统中，从而简化了操作过程。

2. 模型的多模态能力

未来的模型将会整合更多的模态信息。例如，谷歌最新的视频生成技术可以同时生成语音和视频内容。未来可能会有更多的信息被生成，如视频中的物体坐标等。这种多模态的信息输入将使模型更加智能和全面。

3. 更少的人类指令输入（Less Prompt）

随着技术的进步，人类输入的指令会越来越少。例如，代码补全工具从最初的按回车补全下一行代码，到按Tab键补全整个文档的内容。这种趋势表明，未来用户输入的指令会更少，系统会根据少量的输入自动生成完整的内容。

基于代码补全的概念
- Cursor前的代码补全概念：
- - 功能：按下回车键后，自动补全下一行代码。
- Curosr 概念：
- - 功能：按下 Tab 键后，不仅全文补全，自动预测下一个要补全的代码位置，还会根据整个工程进行编程补全。
- - 优势：减少用户输入的内容。
应用于客户端应用的智能推荐（思路）
- 操作行为分析：
  - 通过 Less Prompt 的概念引导，我们可以减少用户的操作行为来执行指令。
  - 示例：简化用户操作，可能只需一步点击即可完成任务（类似补全操作路径的概念）

4. 商业应用中的数据共享

目前，AI在生成结果时，往往缺乏上下文数据的共享。例如，当用户提出多个问题时，AI需要记录这些问题并基于这些记录推荐相关问题和答案。未来，数据共享和整合将会更加重要，以便AI能够更好地理解用户的需求并生成相应的结果。

5. 更多数据（More Data）

未来的AI模型将会依赖更多的数据进行训练。例如，医疗领域是一个可能爆发的应用场景。医疗行业每年投入大量资金，而富人对延长寿命的需求使得这一领域有很大的发展潜力。具体应用如胃肠道胶囊摄像头，可以通过摄像头拍摄上千张图片，然后基于AI分析这些图片，检测消化道是否有息肉或其他问题。这样可以大大减少人工分析的时间和成本，提高诊断效率。

More Data 概念