51c大模型~合集165
自己的原文哦~ https://blog.51cto.com/whaosoft/14081837
#What is Stigma Attributed to? A Theory-Grounded, Expert-Annotated Interview Corpus for Demystifying Mental-Health Stigma
让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题
论文第一作者 Han Meng 是新加坡国立大学博士生,从事心理学构建的计算方法研究。通讯作者 Yi-Chieh Lee 是新加坡国立大学助理教授,在对话式人工智能、人机交互和心理健康技术领域开展研究工作。共同作者 Renwen Zhang 是南洋理工大学助理教授,专注于计算传播学研究,为本研究提供了传播学视角。Jungup Lee 是新加坡国立大学副教授,在心理健康领域有深入研究,为本研究提供了重要的领域知识支撑。
心理健康问题影响着全球数亿人的生活,然而患者往往面临着双重负担:不仅要承受疾病本身的痛苦,还要忍受来自社会的偏见和歧视。世界卫生组织数据显示,全球有相当比例的心理健康患者因为恐惧社会歧视而延迟或拒绝治疗。
这种「污名化」现象如同隐形的障碍,不仅阻碍了患者的康复之路,更成为了一个重要的社会问题。患者们在承受病痛的同时,还要面对来自不同社会环境中的偏见。更为复杂的是,这种污名化往往以微妙、隐蔽的形式存在于日常对话中,即使是先进的人工智能系统也难以有效识别。
尽管自然语言处理领域在仇恨言论、攻击性语言检测方面已有不少研究,但专门针对心理健康污名的计算资源却相对稀缺。现有数据集主要来源于社交媒体或合成数据,缺乏真实对话场景中的深层心理构建,且往往忽视了社会文化背景的重要性。
新加坡国立大学 AI4SG 实验室联合多学科专家团队,构建了首个基于专家标注的心理健康污名访谈语料库 MHStigmaInterview,希望为这一重要社会问题提供技术支持。该研究获得 ACL 2025 Oral 论文及高级领域主席奖(全会仅 47 篇获此荣誉)认可。
- 论文标题:What is Stigma Attributed to? A Theory-Grounded, Expert-Annotated Interview Corpus for Demystifying Mental-Health Stigma
- 论文链接:https://aclanthology.org/2025.acl-long.272.pdf
- 数据集链接:https://github.com/HanMeng2004/Mental-Health-Stigma-Interview-Corpus
研究团队
该研究由新加坡国立大学 AI4SG 实验室主导,汇聚了人机交互、计算社会科学、人工智能伦理等多个领域的研究者。AI4SG 实验室专注于人机交互、计算社会科学、人机协作以及社会公益人工智能等交叉研究领域。
研究团队与心理健康领域专家密切合作,为 AI 和 NLP 研究引入了跨学科视角,为计算科学与社会科学的深度融合提供了一个探索案例。
理论驱动的框架设计
与传统依赖社交媒体数据的方法不同,MHStigmaInterview 建立在心理学理论基础上。研究团队采用了归因模型,将心理健康污名分解为七个核心维度:
认知层面:
- 责任归因: 认为患者应为自己的病情负责
情感层面:
- 愤怒: 对患者感到不满
- 恐惧: 认为患者危险、不可预测
- 怜悯: 缺乏真正的同情心
行为层面:
- 拒绝帮助: 不愿意提供支持
- 强制隔离: 主张强制住院治疗
- 社交距离: 倾向于回避与患者接触
这种理论驱动的标注体系,为后续的计算模型提供了相对明确的学习目标。
基于聊天机器人的数据收集
为了获得更自然的对话样本,研究团队设计了聊天机器人访谈系统。该系统通过三个阶段引导参与者:
- 破冰阶段: 聊天机器人(命名为 Nova)首先与参与者讨论轻松话题,如兴趣爱好、最近看过的电影等,建立基本的交流氛围。
- 情境植入: 系统呈现一个关于虚构角色「Avery」的抑郁症患者故事,描述其在工作、学习、社交中面临的挑战,避免使用专业术语以减少社会期望偏见。
- 深度访谈: 基于七个核心归因维度设计访谈问题,如:
- 「你认为 Avery 目前的状况主要是他们自己行为的结果吗?」
- 「如果你要为家里选择租户,你会放心把房子租给像 Avery 这样的人吗?」
- 「如果你是 Avery 的邻居,你会考虑让他们离开社区并接受住院治疗吗?」
系统会根据参与者回答的详细程度自动调整后续提问策略,以获得充分的信息。
数据集基本情况
经过严格的伦理审查和数据筛选,最终语料库包含:
- 4,141 个访谈片段
- 684 名参与者,涵盖不同年龄、性别、种族、教育背景
- 平均 2.11 轮对话,总字符数超过 17 万
- 专家标注: 两名训练有素的标注员独立标注,Cohen's kappa = 0.71
数据分析显示:
- 53.9% 的回答没有表现出污名化态度
- 责任归因(9.51%)和社交距离(9.15%)是最常见的污名类型
- 恐惧(8.86%)和愤怒(7.20%)紧随其后
- 相比传统仇恨言论数据集,该语料库中的污名化表达更加隐蔽、微妙
AI 模型的表现
研究团队在该语料库上测试了当前主流的大语言模型,包括 GPT-4o、LLaMA-3 系列、Mistral 等。
性能表现:
- GPT-4o 在零样本设置下 F1 分数为 0.456
- 提供详细标注指南后,性能提升至 0.757
- 模型普遍存在高召回率、低精确率的问题
隐性污名表达的深入分析
通过对 137 个错误分类案例的分析,研究团队发现了一些值得关注的模式。这些隐性污名化表达在日常对话中较为常见,但往往难以被识别。
语言层面的表达特点:
- 距离化表达是一种常见的策略,说话者使用第三人称视角来表达观点,比如「邻居们可能很难理解 Avery 的行为」。这种表达方式表面上显得客观,但往往暗含着某种判断。
- 术语滥用现象也比较普遍,一些人在缺乏专业背景的情况下,不恰当地使用心理学术语来描述患者,比如随意使用「偏执」等词汇。这种使用方式往往带有负面含义。
- 强制性措辞在建议中频繁出现,诸如「绝对需要」、「必须接受」等表达,在一定程度上忽视了患者的自主选择权。
语义层面的深层模式:
- 差别化支持表现为对患者的过度小心,比如「我需要在与他们交流时更加谨慎」。虽然表面上显得体贴,但实际上可能强化了患者的「特殊性」标签。
- 家长制态度体现在一些回应中,说话者往往以指导者的姿态出现,认为自己有资格「教导」患者如何生活。这种态度在一定程度上忽视了患者作为独立个体的尊严。
- 轻视化倾向则通过淡化心理健康问题的复杂性来体现,一些人习惯性地将心理健康问题简化为态度问题,认为患者「想开一点」就能解决。
这些发现揭示了现代社会中污名化表达的复杂性和隐蔽性,也说明了开发更精准识别系统的必要性。
社会文化因素分析
语料库记录了参与者的社会文化背景,初步分析显示了一些有趣的模式:
- 性别差异: 女性参与者在某些维度上表现出相对较少的污名化倾向
- 年龄影响: 不同年龄群体对心理健康的态度存在差异
- 文化背景: 来自不同国家的参与者表现出不同的模式
- 个人经历: 有心理健康问题接触史的参与者更倾向于表现出非污名化态度
这些发现为理解污名化的社会根源提供了基本初步线索。
应用前景与未来方向
该语料库为多个研究方向提供了资源。
技术应用:
- 开发更精准的污名化表达识别系统
- 为内容审核提供参考工具
- 支持心理健康相关 AI 应用的开发
研究拓展:
- 个性化的反污名干预策略研究
- 跨文化污名模式比较
- 不同干预方法的效果评估
社会应用:
- 心理健康教育项目设计
- 医疗从业者培训支持
- 公共政策制定参考
MHStigmaInterview 语料库的发布为心理健康污名的计算研究提供了一个新的起点。虽然这是初步的探索,但它展示了技术在解决社会问题方面的潜力。通过持续的跨学科合作和技术改进,作者希望能够为构建更加包容的社会环境贡献一份力量。
这项工作指出,在追求技术进步的同时,关注技术的社会影响和人文关怀同样重要。只有将技术发展与社会需求紧密结合,才能真正实现技术向善的目标。
参考资料:
https://aclanthology.org/2025.acl-long.272.pdf
https://github.com/HanMeng2004/Mental-Health-Stigma-Interview-Corpus
#硬核拆解大模型
从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
自首次提出 GPT 架构以来,转眼已经过去了七年。
如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构在这七年中保持了高度一致。
当然,细节上仍有不少演进。例如,位置编码从最初的绝对位置(Absolute Positional Encoding)发展为旋转位置编码(RoPE);注意力机制也从标准的多头注意力(Multi-Head Attention)逐步过渡为更高效的分组查询注意力(Grouped-Query Attention);而激活函数方面,则从 GELU 被更高效的 SwiGLU 所取代。
然而,这些变化中究竟有没有「颠覆性创新」?七年间,大语言模型的架构是否真正迎来了质的飞跃,还是仍在原有框架上不断精雕细琢?
本文博客来自于 Sebastian Raschka,知名 AI 研究者和博主、《Python 机器学习》作者。
博客详细列举了 8 个主流大语言模型,包含 DeepSeek 和 Kimi 等国产大模型,硬核拆解了每个大模型的架构设计和革新思路,深度介绍了现代最新大语言模型的架构设计以及大模型的架构演进趋势。
图 1:本文所涵盖的部分 LLM 架构示意图。
DeepSeek V3/R1
DeepSeek R1 在 2025 年 1 月发布时引起了巨大反响。
DeepSeek R1 是一个以 DeepSeek V3 架构为基础构建的推理模型,而 DeepSeek V3 最初于 2024 年 12 月推出。尽管本文重点讨论 2025 年发布的架构,但作者认为应当将 DeepSeek V3 纳入其中。
本节将重点介绍 DeepSeek V3 引入的两项关键架构技术,这些技术提升了其计算效率,也使其在众多大型语言模型中脱颖而出。
若对 DeepSeek V3 关键技术感兴趣,请参照技术报告:
- 论文标题:DeepSeek-V3 Technical Report
- 论文链接:https://arxiv.org/abs/2412.19437
多头潜在注意力机制 (MLA)
在讨论多头潜在注意力机制之前,应从近年来被广泛采用的分组查询注意力机制(GQA)说起,它已成为相较于传统多头注意力机制(Multi-Head Attention, MHA)更具计算与参数效率的新标准替代方案。
下面是对 GQA 的简要说明:与 MHA 中每个注意力头都有自己的一组键(key)和值(value)不同,GQA 的做法是将多个注意力头分组,让它们共享相同的 key 和 value 投影,从而降低内存使用。
如下图 2 所示,假设有 2 组 key-value 和 4 个注意力头,那么注意力头 1 和 2 可以共享第一组 key 和 value,而注意力头 3 和 4 共享第二组。这种做法减少了总的 key 和 value 计算量,降低了内存使用,提高了效率。
图 2:多头注意力机制(MHA)与分组查询注意力机制(GQA)的对比示意图。
GQA 的核心思想是:通过让多个 query 头共享一组 key 和 value,从而减少 key 和 value 的总数。这带来了两个主要好处:
1. 降低模型参数总量;
2. 在推理时减少 KV 缓存中 key 和 value 张量的内存带宽使用,因为需要存取的键值对变少了。
接下来介绍的 多头潜在注意力机制(MLA),则提供了一种 不同的内存节省策略,并且它与 KV 缓存机制的配合更加紧密。
与 GQA 通过「共享键值头」不同,MLA 是将 key 和 value 张量压缩到一个低维潜在空间后再存入 KV 缓存。而在推理过程中,这些压缩张量会被重新投影回原始维度再使用(如图 3 所示)。这一过程中虽然引入了一次额外的矩阵乘法,但大大节省了内存使用。
图 3:多头潜在注意力机制(MLA,应用于 DeepSeek V3 和 R1)与常规多头注意力机制(MHA)的对比。
值得说明的是,MLA 并不是 DeepSeek V3 首创的技术,它的前代模型 DeepSeek V2 就已经使用(甚至首次提出)了该机制。
MLA 是一种非常巧妙的技术手段,能够在提升模型表现的同时,大幅降低 KV 缓存的内存占用。相比之下,它甚至略优于传统的 MHA。接下来将进入下一个架构模块的分析。
Mixture-of-Experts (MoE)
DeepSeek 架构中另一个值得重点关注的重要组成部分是它对 MoE(Mixture-of-Experts,专家混合)层的应用。虽然 MoE 并非由 DeepSeek 首创,但这一技术在 2025 年迎来了回归,在后文介绍的许多架构中也能看到它的身影。
MoE 的核心思想是:将 Transformer 中的每个前馈模块(FeedForward)替换为多个「专家层」(每个专家层本质上也是一个前馈网络)。也就是说,原本单一的前馈结构被替换为多个并行的前馈子模块,具体如图 5 所示。
图 5:右图展示了 DeepSeek V3/R1 中 Mixture-of-Experts(MoE)模块的结构,对比左图中标准 LLM 所使用的普通前馈模块。
在 Transformer 块内部的前馈模块(上图中的深灰色块)通常占据了模型总参数量的很大一部分。
因此,将一个前馈模块替换为多个前馈模块(即构建 MoE 结构)会显著增加模型的总参数量。不过,关键的技巧在于:并不为每个 token 启用所有的专家模块(experts),而是由一个「路由器(router)」为每个 token 挑选出其中一小部分进行激活。MoE 的这种设计使得模型拥有极大的参数容量,在训练阶段能吸收更多知识;但在推理时由于稀疏激活,大幅降低了计算开销。
举个例子:DeepSeek-V3 每个 MoE 模块中拥有 256 个专家,总参数量高达 6710 亿。但在推理时,每个 token 实际只激活其中 9 个专家(1 个共享专家 + 路由选出的 8 个专家)
图 6:DeepSeekMoE 的注释图
关于 DeepSeek MoE 的更多细节,请参阅以下论文:
- 论文标题:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
- 论文链接:https://arxiv.org/abs/2401.06066
在 DeepSpeedMoE 论文中首次指出,引入「共享专家」(shared expert)可以显著提升模型整体的建模性能。其原理很可能是:对于通用或重复性强的模式,不需要多个专家分别学习;只需由共享专家统一处理,从而释放出其他专家的容量,专注于学习更加专业的知识模式。
OLMo 2
由非营利机构 Allen Institute for AI 发布的 OLMo 系列模型,因其在训练数据、代码和技术报告方面的高度透明而备受关注。
OLMo 模型结构清晰、设计规范,更重要的是,由于极高的透明度,它们为大语言模型的开发提供了极佳的参考范式。
在 OLMo 2 中有哪些值得注意的架构设计选择呢?
主要集中在归一化策略上:包括 RMSNorm 层的位置安排,以及 QK-norm(Query-Key 归一化) 的引入。
另一个值得一提的是,OLMo 2 仍采用传统的多头注意力机制(MHA),并未采用 MLA 或 GQA 等新型注意力结构。
关于更多 OLMo 2 的细节信息,请参照论文:
- 论文标题:2 OLMo 2 Furious
- 论文链接:https://arxiv.org/abs/2501.00656
归一化层位置选择
总体而言,OLMo 2 在架构上大体沿用了最初 GPT 模型的设计,与当前多数主流大型语言模型相似。但它也存在一些值得关注的不同之处,先从归一化层的设计说起。
与 Llama、Gemma 以及大多数现代 LLM 一样,OLMo 2 将归一化方法从 LayerNorm 替换为 RMSNorm。
真正值得讨论的是 RMSNorm 的位置选择。在最初的 Transformer 架构中,两个归一化层分别位于注意力模块和前馈模块之后,这种结构被称为 Post-LN 或 后归一化(Post-Norm)。
而 GPT 及其后大多数的 LLM 模型,则将归一化层放在注意力模块和前馈模块的之前,这种做法称为 Pre-LN 或 前归一化(Pre-Norm)。
下图展示了 Post-Norm 与 Pre-Norm 的结构对比:
图 8:Post-Norm、Pre-Norm 以及 OLMo 2 采用的 Post-Norm 变体的对比图。
早在 2020 年,Xiong 等人就指出 Pre-LN 在模型初始化时可以带来更稳定的梯度。此外,研究人员还提到,Pre-LN 即使在不使用学习率预热的情况下也能正常训练,而这是 Post-LN 通常难以做到的。
在 OLMo 2 中,归一化层并不是放在注意力层和前馈网络之前,而是放在之后,如上图所示。然而,与最初 Transformer 架构不同的是,这些归一化层仍然嵌套在残差层内部。
那么,他们为何要调整归一化层的位置呢?
原因在于这种设计有助于提升训练的稳定性,这一点将在下图中进行展示。
图 9:展示了 Pre-Norm(如 GPT-2、Llama 3 等所采用)与 OLMo 2 所采用的 Post-Norm 变体在训练稳定性方面的对比。
不过遗憾的是,这张图展示的结果同时包含了归一化顺序调整和 QK-Norm 两个因素,而后者是一个独立的概念。因此很难明确判断,归一化位置的改变对训练稳定性的提升到底贡献了多少。
QK-Norm
QK-Norm 本质上是另一个 RMSNorm 层,它被放置在 多头注意力模块内部,在应用旋转位置编码(RoPE)之前,对 Query 和 Key 进行归一化处理。
如前所述,QK-Norm 与 Post-Norm 结合使用,有助于稳定训练过程。关于 QK-Norm 更多细节,请参阅以下论文:
- 论文标题:Scaling Vision Transformers
- 论文链接:https://arxiv.org/abs/2106.04560
简而言之,OLMo 2 架构中的主要设计亮点是 RMSNorm 的放置方式:将 RMSNorm 放置在注意力模块和前馈模块之后(属于 Post-Norm 的一种变体),并在注意力机制中对 query 和 key 引入额外的 RMSNorm(即 QK-Norm)。这两项改动结合使用,有助于稳定训练损失。
下图展示了 OLMo 2 与 Llama 3 的架构对比;可以看到,除了 OLMo 2 仍使用传统的 MHA 而非 GQA 外,二者在整体结构上相对接近。
图 10:Llama 3 与 OLMo 2 的架构对比图。
Gemma 3
谷歌的 Gemma 系列模型一直表现非常出色,但相比于 Llama 系列等热门模型,它们的关注度似乎总是略显不足。
Gemma 3 在架构上使用了另一种「技巧」来降低计算成本:滑动窗口注意力(sliding window attention)。
借助滑动窗口注意力机制,Gemma 3 团队成功大幅降低了 KV 缓存的内存需求,具体效果如下图所示。
图 11:Gemma 3 的 KV 缓存内存节省效果。
如果把常规的自注意力看作一种「全局」注意力机制,因为序列中的每个元素都可以访问其他所有元素,那么滑动窗口注意力则可以看作是一种「局部」注意力机制,因为它限制了当前查询位置周围的上下文范围。下图展示了这一机制的原理。
图 12:常规注意力机制(左)与滑动窗口注意力机制(右)的对比图。
需要注意的是,滑动窗口注意力机制既可以与多头注意力配合使用,也可以与分组查询注意力(GQA)一起使用;Gemma 3 就采用了 GQA。
如上所述,滑动窗口注意力也被称为「局部注意力」,因为其关注的上下文仅限于围绕当前查询位置的一个局部窗口,并且该窗口会随着查询位置的移动而滑动。相对地,常规注意力机制则是「全局」的,每个 token 都可以访问所有其他 token。
虽然滑动窗口注意力是 Gemma 3 架构中最显著的特点,但作为对前文 OLMo 2 部分的补充,在此简要介绍一下 Gemma 3 中归一化层的放置方式。
一个小但有趣的细节是:Gemma 3 在其 GQA 模块周围同时使用了 RMSNorm 的 Pre-Norm 和 Post-Norm 形式。
这与 Gemma 2 的做法类似,但依然值得强调,因为它不同于以下几种主流做法:
1. 原始 Transformer 架构使用的 Post-Norm;
2. 由 GPT-2 推广、并被许多后续架构采用的 Pre-Norm;
3. 前文在 OLMo 2 中看到的、特殊的 Post-Norm 变体。
Gemma 3 的这种双重归一化策略展示了一种不同寻常的归一化设计选择,可能与其在推理效率和训练稳定性之间的权衡有关。
图 14:OLMo 2 与 Gemma 3 的架构对比;请注意 Gemma 3 中额外的归一化层。
这种归一化层的放置方式相对直观,因为它结合了 Pre-Norm 和 Post-Norm 的优势。
作者认为,多加一点归一化并无坏处。
关于 Gemma 3 的更多细节,请参阅技术报告:
- 论文标题:Gemma 3 Technical Report
- 论文链接:https://arxiv.org/abs/2503.19786
Mistral Small 3.1
Mistral Small 3.1 24B 于今年 3 月发布,紧随 Gemma 3 之后。它值得关注的一个原因是,在多个基准测试中,其表现优于 Gemma 3 27B,同时推理速度更快。
造成 Mistral Small 3.1 推理延迟低于 Gemma 3 的主要原因,可能在于其定制的分词器(tokenizer),以及更小的 KV 缓存和更少的层数。除此之外,它整体上采用的是标准架构,如下图所示。
图 16:Gemma 3 27B 与 Mistral 3.1 Small 24B 的架构对比图。
有趣的是,早期的 Mistral 模型曾使用滑动窗口注意力机制,但在 Mistral Small 3.1 中似乎放弃了这一设计。
与使用滑动窗口的 Gemma 3 不同,Mistral 采用了常规的 GQA。
作者推测,尽管滑动窗口注意力可以降低内存使用,但它并不一定能降低推理延迟,而这正是 Mistral Small 3.1 所优先关注的性能指标。
Llama 4
前文对专家混合模型(MoE)的详细介绍又派上用场了。
Llama 4 同样采用了 MoE 架构,其余部分则延续了较为标准的设计,整体架构与 DeepSeek-V3 非常相似,如下图所示。
图 17:DeepSeek V3(6710 亿参数)与 Llama 4 Maverick(4000 亿参数)架构对比图。
尽管 Llama 4 Maverick 的整体架构看起来与 DeepSeek-V3 非常相似,但其中仍有一些值得注意的差异。
首先,Llama 4 采用了与其前代模型相同的 GQA,而 DeepSeek-V3 则使用了 MLA。
这两款模型都是非常庞大的架构,DeepSeek-V3 的总参数量大约比 Llama 4 Maverick 多出 68%。但从实际推理中参与计算的参数数量来看,DeepSeek-V3 启用的参数达 370 亿,是 Llama 4 Maverick(170 亿)的两倍多。
在 MoE 设置方面,Llama 4 Maverick 使用的是更为传统的架构:每次仅激活 2 个专家,每个专家的隐藏层维度为 8192;而 DeepSeek-V3 每次激活 9 个专家,每个专家的隐藏层维度为 2048。此外,DeepSeek 在除了前 3 层外的每个 Transformer Block 中都插入了 MoE 层,而 Llama 4 则是交替使用 MoE 模块和密集(Dense)模块,即每隔一个 Block 加一次 MoE。
可以明确的一点是,MoE 架构在 2025 年迎来了显著的发展与普及。
Qwen3
Qwen 团队一直以来都在稳定输出高质量的开源大语言模型。在 NeurIPS 2023 的 LLM 效率挑战赛时,最终获胜的方案全部基于 Qwen2 构建。
而如今,Qwen3 系列再次成为各自参数规模下的榜单冠军,表现依旧亮眼。
Qwen3 (Dense)
先来看看 Qwen3 Dense 模型架构。截至目前,Qwen3 0.6B 可能是当前世代中体量最小的开源权重模型之一。
在本地运行时,它具有很高的每秒生成 token 数(token/sec)和很低的显存占用,非常适合轻量部署。而且因为参数量小,对于想在本地进行训练实验(例如教学用途)的人来说,也非常友好。
图 18:Qwen3 0.6B 与 Llama 3 1B 架构对比图。可以看到,Qwen3 架构更深(有更多的 transformer 层),而 Llama 3 架构更宽(具有更多的注意力头)。
Qwen3 (MoE)
如前所述,Qwen3 系列还包括两个 MoE(Sparse)变体。那么,为什么像 Qwen3 这样的架构会同时发布普通(Dense)和 MoE(Sparse)版本呢?
正如本文开头所提到的,MoE 变体旨在降低大规模基础模型的推理成本。提供 Dense 和 MoE 两种版本,可以让用户根据不同的目标与资源约束灵活选择。
通过同时发布这两类模型,Qwen3 系列能够覆盖更广泛的应用场景:致密模型强调鲁棒性、简单性和可微调性;MoE 模型则面向大规模部署中的推理效率。
图 19:DeepSeek-V3 与 Qwen3 235B-A22B 架构对比。
如上图所示,DeepSeek-V3 和 Qwen3 235B-A22B 在架构上非常相似。不过值得注意的是,Qwen3 模型取消了共享专家(此前的 Qwen2.5-MoE 等模型采用了共享专家机制)。
遗憾的是,Qwen3 团队并未公开说明他们放弃共享专家的原因。
作者猜测,可能是因为在将专家数量从 Qwen2.5-MoE 的 2 个增加到 Qwen3 的 8 个之后,训练稳定性已经不再依赖共享专家。因此,他们选择省略共享专家,以节省额外的计算和显存开销(避免从 8 个增加到 8+1 个专家)。不过,这并不能解释为何 DeepSeek-V3 至今仍保留共享专家机制。
SmolLM3
SmolLM3 或许不像本文其他提到的大模型那样广为人知,但作者认为它依然值得纳入讨论,因为该模型在仅有约 30 亿参数的体量下,展现出非常出色的建模性能,定位介于 Qwen3 的 17 亿参数模型与 40 亿参数模型之间,如下图所示。
此外,SmolLM3 也像 OLMo 一样公开了大量训练细节,这在业内并不常见,因此尤为值得称赞。
图 20:SmolLM3 相较于 Qwen3 1.7B 和 4B,以及 Llama 3 3B 和 Gemma 3 4B 的胜率比较。
如下面的架构对比图所示,SmolLM3 的整体结构相对标准。不过,其中最有趣的一点或许是它采用了 无位置嵌入(NoPE)机制。
图 21:Qwen3 4B 与 SmolLM3 3B 的并排架构对比图。
在 LLM 的背景下,NoPE 是一种较早提出的理念,该方法旨在移除显式的位置编码信息注入机制,例如早期 GPT 架构中常用的绝对位置嵌入,或当前主流的 RoPE(旋转位置编码)。
在基于 Transformer 的语言模型中,位置编码通常是必要的,因为自注意力机制默认对输入序列中的 token 顺序不敏感,即每个 token 被独立处理。为了解决这一问题,绝对位置嵌入通过添加一个额外的嵌入层,将位置信息与 token 嵌入相加,从而为模型提供序列顺序感知能力。
图 22:展示了绝对位置嵌入的机制。
相比之下,RoPE 通过将 Query 和 Key 向量按 token 的位置进行旋转来注入位置信息。
而在 NoPE 层中,则完全不加入任何位置编码信息:没有固定的、没有可学习的,也没有相对位置编码 —— 什么都没有。
即使没有显式的位置编码,模型依然可以通过因果注意力掩码知道哪些 token 是在前面。这个掩码会阻止每个 token 访问其后的 token,从而保证了自回归顺序的正确性。也就是说,位于位置 t 的 token 只能「看到」位置小于等于 t 的 token。
总结来说,NoPE 不仅不需要注入位置编码,还在序列长度泛化方面更具优势。也就是说,随着输入序列长度的增加,模型的表现下降幅度更小。如下图所示:
图 23:展示了 NoPE 在长度泛化上的优势表现。
正因如此,SmolLM3 团队在实际应用中,并未在每一层都使用 NoPE,而是选择在每 4 层中使用一次 NoPE(或说每 4 层省略一次 RoPE),作为一种折中策略。
关于 NoPE 的更多细节,请参阅以下论文:
- 论文标题:The Impact of Positional Encoding on Length Generalization in Transformers
- 论文链接:https://arxiv.org/abs/2305.19466
Kimi K2
Kimi K2 最近因其出色的性能在 AI 社区引起了巨大反响。作为一个开源权重模型,它在多个基准测试中表现堪比 Google 的 Gemini、Anthropic 的 Claude 和 OpenAI 的 ChatGPT 等顶级闭源模型。
一个值得注意的方面是,它在训练中首次在此规模的生产级模型中使用了 Muon 优化器的变体,而非传统的 AdamW。
据作者所知,这是 Muon 优化器首次在超大模型中应用(此前仅在最多 160 亿参数规模上展示过可扩展性)。这一选择带来了极为理想的训练损失曲线,很可能正是 Kimi K2 能在上述各项基准测试中脱颖而出的重要原因。
Kimi K2 的参数规模达到了 1 万亿(1T),这无疑令人印象深刻。它可能是目前这一代中最大的 LLM(截至本文撰写时),在不考虑尚未发布的 Llama 4 Behemoth、闭源模型以及架构不同的 Google 1.6 万亿 Switch Transformer(其为编码器 - 解码器模型)前提下,Kimi K2 几乎是无出其右的。
从架构上看,Kimi K2 基于本文开头提到的 DeepSeek-V3 架构,但进行了更大规模的扩展和增强,如下图所示(图略)。这也标志着一种「循环回归」:Kimi K2 将 DeepSeek-V3 的设计理念推向了极致。
如上图所示,Kimi K2 在整体架构上基本与 DeepSeek V3 保持一致,主要的差异在于:
- Kimi K2 在 MoE 模块中使用了更多的专家,
- 在 MLA 模块中使用了更少的注意力头(heads)。
在历经数年之后,LLM 的发布依然充满惊喜与期待。新技术永远让人心潮澎湃,永远期待更多的大模型架构改进的出现。
更多信息请参阅原博客:
- 博客链接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
#三重激励+全周期扶持
即梦升级这个计划,让AI创作者的成长有迹可循
快!即梦AI创作者成长计划全面升级了。
自从有了 AI,全球网友的精神状态是愈发美丽了。现在只要打开手机,社交平台总能蹦出几个抽象的 AI 视频。
在上海街头喝了杯蜜雪冰城,东方明珠变成防御塔追着扫射:
动图来自B站up主我是七奇
穿西装打领结的猫咪化身 Tony 老师,一推子给梅西剃成了光头:
各路「成精」的动物不是深更半夜跑到人家后院蹦迪:
,时长00:30
就是对着镜头齐刷刷比起「国际友好手势」:
,时长00:20
这类 AI 视频凭借天马行空的想象力和极具冲击力的视觉表现迅速出圈,动辄收获百万级播放。
AI 的潜力远不止于「万物皆可整活」。在这些娱乐化的表象背后,越来越多优质创作者正在用 AI 工具探索真正的内容创作边界。
入选即梦 AI 创作者成长计划的博主笑尘和袁小圆便是其中的代表。半个月前,他们发布了一条 AI 动画作品《赶在陷落之前》,在社交平台引发不少关注。
为了打造这部风格独特、画面细腻的短片,两位博主花了近两个月时间,使用包括 DeepSeek、即梦 AI、Suno 等在内的至少 6 款 AI 工具,完成从分镜设定、角色生成到配乐的全流程创作。
,时长10:58
过去这一年,我们见证了一场由 AI 技术驱动的内容创作革命。传统创作门槛被打破,表达不再专属于掌握专业技能的少数人。以往需要专业团队完成的视频、图像,如今借助 AI,个人创作者只需一台设备、几句提示词即可生成。创作效率被重新定义,内容形式、风格与成本结构也在发生根本性变化。
不过,当技术落到现实世界,创作者们也面临新的困局:优质作品被海量内容淹没、创作者缺乏可持续的成长路径、变现与行业对接渠道有限、创作生态支持仍显不足。
大家开始意识到,AI 内容的繁荣不能只靠「技术跑得快」,更需要系统性的创作者扶持机制。
今年 2 月份,即梦 AI 启动「AI 创作者成长计划」,以积分激励、商单合作、流量分发等方式,为创作者提供实打实的支持。截至目前,计划已扶持 3802 位创作者,累计发放超过 2800 万积分。
其中,超过百位创作者已获得商单机会,人均合作金额超 6 万元;多部作品实现千万级播放,一些作品还在上海、戛纳等国际电影节的 AIGC 单元获奖,并走进像 UCCA 尤伦斯当代艺术中心这样的头部美术馆,与乐华娱乐、蜜雪冰城等品牌展开跨界合作。
现在,这一成长计划已全面升级,构建起覆盖潜力新星、进阶创作者、超级创作者三大阶段的扶持体系,提供积分奖励、平台流量、官方项目、模型内测、商单接入等多维资源,面向视频和图片全类型创作者长期开放。
全类型覆盖 + 全方位扶持
即梦 AI 搞了个创作者养成计划
「即梦 AI 创作者成长计划」旨在为全球 AI 创作者提供全方位支持,通过分层进阶激励机制,精准匹配每位创作者在不同阶段的个性化需求,助力其成长与发展。
对于初涉 AI 创作、满怀探索欲的潜力新星,只需在即梦发布内容,即可触发积分奖励。比如,符合平台鼓励内容方向的爆款灵感,每条奖励 88 积分;达到平台内容标准的短片,每条则奖励 888 积分 。这些基础性激励可以帮助新人激发创作灵感,快速建立创作信心。
当创作者积累一定经验并形成稳定风格后,就能进入 「进阶创作者」 阶段。
创作者填写报名问卷加入成长计划,可叠加多重权益:通过审核即享 1000 积分和 1 个月即梦基础会员;优质短片按标准分级奖励,单条最高 20000 积分;内容同步至小红书、抖音等平台可额外获积分,若内容成为平台周互动或点赞 TOP3,创作者还能拿到 2000 元现金奖励。
同时,平台还同步开放流量扶持、模型内测权限、字节系商单对接以及创作者社群交流等资源。
所有加入成长计划的创作者,如果作品获得广泛认可,将有机会被邀请加入「即梦超创」。
进入这一阶段的创作者将享受最全面、最顶级的支持。权益涵盖每月 10000 积分、即梦会员与剪映 SVIP,优先参与国际电影节和行业共创等官方项目,前置参与模型内测、1V1 专属客服、全球平台推广、优先推荐全字节系商单,甚至自有项目可申请即梦支持,单项目最高可获 50 万元资助。
这一阶段的创作者将得到平台的高度曝光,成为行业内的焦点,进一步提升创作的影响力和商业价值。
总而言之,即梦 AI 创作者成长计划通过积分奖励、流量扶持和生态资源三重激励机制,帮助创作者最大化创作收益,实现一份创作多份回报。
该计划提供的稀缺资源也为创作者打开了行业通道。通过与国际电影节、美术馆展映等高价值资源的对接,创作者的作品有机会获得更广泛的曝光,并得到业内专家和观众的认可;字节系商单等合作机会的开放,为创作者提供了一个拓展市场、深化合作的绝佳平台。
而且,此次成长计划全类覆盖,涵盖视频创作与图片创作,确保各类创作者都能获得量身定制的支持。
打造 AI 时代的创作者优质社区
在 AI 内容生产爆发式增长的背景下,真正决定一个平台能走多远的,往往不是技术本身,而是它能否构建起一套可持续、具成长性的创作生态。
作为一款一站式 AI 创作平台,即梦 AI 集成了图片生成、视频制作、智能编辑等多模态能力,真正实现了面向大众的零门槛创作体验。用户只需输入简单的文字描述或上传基础素材,即可快速生成高质量的图像、视频甚至具备镜头逻辑的短剧分镜。
例如,其文生视频功能支持自动生成带运镜特效的动态画面,首尾帧控制技术能自动补全过渡画面,极大简化专业视频制作的复杂流程。
,时长01:00
视频来自博主话神闲
对口型功能则可精准匹配虚拟人物的语音与口型,甚至支持多地方言,为虚拟叙事提供更真实自然的表达方式,解决了长期困扰行业的技术难题。
,时长00:05
不过,对于创作者而言,工具只是起点,真正有价值的创作需要被看见、被回应、被支持,更需要在持续的创作过程中获得成长与商业转化的机会,而这正是即梦 AI 区别于其他平台的核心优势所在。
即梦 AI 与剪映、抖音等字节系产品实现无缝对接,创作者生成内容后可直接导入剪映进行精细化编辑,再同步至抖音平台进行分发,进一步强化了内容生态的协同性。
更重要的是,即梦 AI 正在逐步沉淀一个风格多元、去中心化的优质创作者社区。
这个社区既有技术驱动型的模型测试者,也有具备叙事力与艺术风格的视觉创作者,还有在社交平台拥有影响力的创意视频博主。不同背景、不同风格的创作者在平台上共创交流,逐步形成一个聚焦内容质量、强调原创价值的 AI 创作精英社区。
为了持续激发社区活力,即梦还定期发起线上工作坊、创意挑战赛等活动,这不仅为创作者提供灵感刺激,也为创作者带来了更多展示与被看见的机会。
在 AI 内容井喷时代,如何让创作者真正留下来、活跃起来、发展下去,成为每一个平台必须回答的问题。而从「即梦 AI 创作者成长计划」的推进实践来看,这不仅是一次面向创作者的精准扶持,更是一次对创作生态底层逻辑的再设计。
即日起至 2025 年 12 月,即梦 AI 创作者成长计划持续开放中。感兴趣的创作者可前往即梦 AI 微信官方服务号填写问卷,并输入邀请码「1004」参与报名。
#DeepSeek的GRPO会导致模型崩溃?
看下Qwen3新范式GSPO
众所周知,大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」,开发者利用大规模文本数据集训练模型,让它学会预测句子中的下一个词。第二阶段是「后训练」,旨在教会模型如何更好地理解和执行人类指令。
在 LLM 后训练阶段,似乎是一个强化学习的特殊形式。用于大语言模型(LLMs)微调的强化学习(RL)算法正沿着一条明确的演进路径持续发展。
起初,OpenAI 开创了一种名为 基于人类反馈的强化学习(RLHF) 的技术,用于改进 ChatGPT。RLHF 的核心是让人类标注员对模型生成的多种响应进行打分,并选出最优答案作为训练参考。这一过程虽然有效,但也耗时、昂贵且依赖人力,通常需要一支小型但专业的数据标注团队。
DeepSeek 的重要创新在于用 RL 技术自动化了这一环节。算法不再依赖人工逐一评估,而是让模型在探索过程中,通过获得「奖励信号」自主学习正确行为,从而显著降低了成本,提高了效率,最终能以较低的成本实现高性能。
OpenAI 在 ChatGPT 的训练中采用了近端策略优化(Proximal Policy Optimization, PPO)。
而 DeepSeek 团队 则认为,在一组样本中进行价值估计更加有效,因此提出了 组相对策略优化(Group Relative Policy Optimization, GRPO) 算法,这也是 DeepSeek-R1 中的核心技术,使 DeepSeek-R1 模型大放异彩。
GPRO 与 PPO 的对比,摘自 DeepSeekMath 论文。
在几个月前 Qwen3 首次亮相的时候,其旗舰模型的性能就已经与 DeepSeek-R1、o3-mini、Gemini 2.5 Pro 等顶级模型表现相当。除此以外,Qwen3 系列模型覆盖了 MoE 模型和密集模型,每一款模型又有许多细分版本。
近些天,Qwen3 系列模型仍然在不停的迭代更新,例如 Qwen3-235B-A22B-Instruct-2507-FP8 在知识数学、编程、人类偏好对齐、Agent 能力等众多测评中表现出色,甚至了超过 Kimi-K2、DeepSeek-V3 等顶级开源模型以及 Claude-Opus4-Non-thinking 等领先闭源模型。
最近,Qwen 团队发布了一篇有关其模型后训练算法的论文,似乎揭示了 Qwen3 模型成功的核心技术细节。
- 论文标题:Group Sequence Policy Optimization
- 论文链接:https://huggingface.co/papers/2507.18071
- 博客链接:https://qwenlm.github.io/blog/gspo/
而在昨天,来自清华大学校友创立的创业公司 NetMind.AI 发表了一篇博客,题为《Qwen Team Proposes GSPO for Qwen3, Claims DeepSeek's GRPO is Ill-Posed》,对 Qwen 团队为 Qwen3 模型提出的 GSPO 算法进行了详尽的介绍与分析。
- 博客链接:https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed
最近 Qwen 的研究表明,使用 GRPO 训练大语言模型时存在严重的稳定性问题,往往会导致模型不可逆地崩溃。他们认为 DeepSeek 的 GPRO 方法存在一些严重问题:
- 在每个 token 级别应用重要性采样,会在长序列中积累高方差,导致训练不稳定。
- 这一问题在 专家混合模型(Mixture-of-Experts, MoE) 中尤为严重,因为 token 级别的路由变化会加剧不稳定性。
- 为缓解这一问题,基于 GRPO 的训练流程通常需要依赖一些额外策略,例如 路由重放(Routing Replay)。
因此,Qwen 团队声称 GRPO 的 token 级重要性采样无法达到稳定训练,其优化目标是「病态的(ill-posed)」。
为了解决这些问题并训练其最新的 Qwen3 系列模型,Qwen 团队提出了一种新的强化学习算法 —— 组序列策略优化(Group Sequence Policy Optimization, GSPO)。
GRPO 的根本问题:
「逐 token 重要性采样」的不稳定性
Qwen 团队指出,GRPO 的不稳定性源于其对 token 级重要性采样权重的错误使用。在强化学习中,重要性采样(Importance Sampling)用于校正行为策略(即用于收集训练数据的策略)与目标策略(当前正在优化的策略)之间的差异。
当两者不一致时,重要性采样通过为已有数据样本赋予权重,使其更能代表当前希望优化的目标策略,从而提高训练的稳定性与有效性。
在大语言模型(LLMs)的训练中,强化学习常常会复用旧策略生成的响应,以节省计算资源,这属于典型的「离策略」(off-policy)训练场景。重要性采样正是用于缓解这种策略不匹配带来的影响,并帮助稳定训练过程。
然而,GRPO 将重要性采样的权重应用在每一个 token 上,而非整个生成的序列。这种做法会带来显著的方差,并在生成较长序列时造成「误差积累」与「训练不稳定性」。
从形式上讲,GRPO 是在每一个 token 的生成步骤上单独计算重要性权重的:
Qwen 团队指出,当在训练目标中应用此类重要性权重时,由于每个 token 的比值是独立计算的,会导致高方差的累积,从而破坏梯度稳定性,最终引发模型崩溃。
同时,这种做法会将高方差噪声引入训练梯度中,尤其在长序列上呈现累积效应,并且在存在「裁剪机制」时,这种不稳定性问题会进一步加剧。
Qwen 团队的实验证据
Qwen 团队通过实验证据验证了其理论分析,如图所示。
在所有展示的实验场景中,其新提出的算法 GSPO 均表现出比 GRPO 更高的训练效率。在 CodeForces 任务中,GRPO 的最终得分收敛于 2000 分以下,而 GSPO 随着训练计算量的增加持续提升成绩,展现出更强的「可扩展性」。
GSPO 与 GRPO 的训练曲线对比
Qwen 的解决方案:
「序列级重要性采样」
那么,GSPO 是如何解决上述问题的呢?
正如其名称所暗示的,GSPO 的核心在于将重要性采样从 token 级转移至序列级,其重要性比值基于整个序列的似然度计算:
这种采样权重的设计自然地缓解了逐 token 方差的累积问题,从而显著提升了训练过程的稳定性。
需要注意的是,指数中的因子用于「长度归一化」。如果不进行长度归一化,仅仅几个 token 的似然变化就可能导致序列级重要性比值的剧烈波动,而不同长度的生成响应在目标函数中也将需要不同的裁剪范围,这会进一步增加训练的不稳定性。
实验验证的优势:
简化 MoE 模型训练
针对专家混合模型(MoE)所进行的专项实验进一步强调了 GSPO 的优势。
由于 MoE 模型具有稀疏激活特性,这会在使用 GRPO 时进一步加剧训练过程中的不稳定性。在经过一次或多次梯度更新后,相同响应所激活的专家网络可能发生显著变化。
Qwen 团队在使用 GRPO 训练 48 层的 Qwen3-30B-A3B-Base 模型时发现:在每一次强化学习的梯度更新后,对于相同的 rollout 样本,新策略所激活的专家中约有 10% 与旧策略所激活的专家不同。这实际上意味着,每次梯度更新后,你都在用不同的数据样本训练不同的模型,毫无疑问这是一种极其低效的训练方式。
在引入 GSPO 之前,为缓解这一问题,他们甚至采取了一种名为「Routing Replay」的技巧,即强制目标策略激活与旧策略相同的专家网络。
相比之下,GSPO 无需使用 Routing Replay 也能实现稳定收敛,从而消除了不必要的训练复杂性,并保留了 MoE 架构的全部潜力。
Routing Replay 策略在 GRPO 训练 MoE 模型的正常收敛中起到了关键作用
结论:
GSPO 或将成为新的标准
总结一下,GSPO 的方法有两点创新:
- 将重要性采样从 token 级别提升到序列级别,并通过序列长度进行归一化处理;
- 显著降低了方差,同时消除了对「路由技巧」(如 Routing Replay)等辅助策略的依赖;
业界已普遍达成共识 —— 在大语言模型的后训练阶段引入强化学习,对于提升其推理能力至关重要。
而论文中的大量实验结果也进一步证实,GRPO 所采用的「逐 token 重要性采样」方法存在不稳定性和低效性的问题。
因此,GSPO 提出的「序列级重要性采样」很可能会成为未来后训练强化学习的新标准。
参考链接:
https://www.reddit.com/r/MachineLearning/comments/1mj3t3r/d_gspo_qwen3s_sequencelevel_rlhf_method_vs_grpo/
https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed
https://www.ft.com/content/ea803121-196f-4c61-ab70-93b38043836e?utm_source=chatgpt.com
https://zhuanlan.zhihu.com/p/22845155602
#颠覆互联网的下一波浪潮
Agentic Web来了!
你不会再「上网」,而是说出一个目标,然后由一群 AI 自动完成。
——未来互联网使用场景设想
过去三十年,互联网经历了从静态网页到智能推荐的深刻演变。如今,我们正站在互联网的另一个重大转折点上。
这一转折,来自一种全新的范式设想 —— Agentic Web,一个由 AI 智能体组成的、目标导向型的互联网系统。在这个新框架中,用户不再手动浏览网页、点击按钮,而是通过自然语言向智能体发出一个目标,AI 会自主规划、搜索、调用服务、协调其他智能体,最终完成复杂任务。
这不是幻想,而是由 UC Berkeley、UCL、上海交通大学、上海创智学院等机构的研究者联合提出,并在论文中系统论述的 Web 重构方案。
论文标题:Agentic Web: Weaving the Next Web with AI Agents
作者:Yingxuan Yang, Mulei Ma, Yuxuan Huang, Huacan Chai, Chenyu Gong, Haoran Geng, Yuanjian Zhou, Ying Wen, Meng Fang, Muhao Chen, Shangding Gu, Ming Jin, Costas Spanos, Yang Yang, Pieter Abbeel, Dawn Song, Weinan Zhang, Jun Wang
单位:上海交通大学,University of California, Berkeley,University College London,上海创智学院等
链接:https://arxiv.org/abs/2507.21206
Github:https://github.com/SafeRL-Lab/agentic-web
这是一次对互联网底层逻辑的全面「改写提案」:人类不再是唯一的网络使用者,智能体将成为 Web 的主要操作者。任务由人类发起,但由 AI 执行。在这个新架构中,网页、服务、平台不再是面向人的交互界面,而是为智能体而生的协作接口。
本文将从技术架构、理论模型、系统协议、典型应用与挑战五个方面,深度解析这场关于「智能体驱动互联网」的范式革命。
一、三次范式跃迁:Web 正在走向「自动化」
互联网的演化是一部「人–信息」关系的技术史。过去三十年,Web 主要经历了三次范式转变:
PC Web:关键词驱动的「目录网络」
在 PC Web 时代,网页以静态内容为主,信息由机构集中生成,并通过人工分类和超链接构成一个「数字黄页」。用户必须主动发起搜索、点击浏览,任务执行线性、明确但效率不高。
商业模式以关键词搜索广告为主,代表性系统如 Google AdWords,依赖点击率 (CTR) 和每次点击成本 (CPC) 来衡量效果,形成了基于「人类意图」的搜索营销生态。
Mobile Web:推荐驱动的「内容爆炸」
伴随社交平台、短视频、电商 UGC 的激增,信息量呈指数增长。传统搜索引擎难以应对如此庞大的内容分发压力,取而代之的是推荐系统主导的信息分发范式。
用户逐渐从「搜索者」变为「消费者」,算法根据行为数据动态推荐内容,平台从内容聚合器变为算法中介。商业模型转向精准推荐与信息流广告,强调停留时间、转化率和千次展示成本 (eCPM)。
Agentic Web:智能体驱动的「行动网络」
如今,我们正步入第三次变革浪潮:AI 智能体成为主角,Web 从「人读内容」转向「智能体执行任务」。信息不再静态储存在网页中,而是被嵌入 LLM 参数中,被智能体调用、组合与再加工。
Web 的角色不再是信息仓库,而是一个充满「可行动资源」的生态系统,供智能体发现、协调、调用。任务不再依赖用户逐步操作,而是由 AI 智能体全流程完成,从发现信息到调用服务再到反馈结果。
这一趋势预示着:未来的 Web,将由 AI 智能体构建、运营与使用。我们需要重新理解什么是「网页」、什么是「流量」、甚至什么是「用户」。
互联网不再只是人类的空间,它正逐步变成一个由智能体共同参与、协作、创造价值的生态系统。
二、什么是 Agentic Web?
论文中的定义指出:
Agentic Web 是一个分布式、交互式的互联网生态系统,其中由大语言模型 (LLMs) 驱动的自主软件智能体,能够持续规划、协调、执行目标导向的任务。在这个范式中,网络资源和服务不仅可供人类使用,还可以供智能体访问,使得智能体与智能体之间 (Agent-to-Agent) 的互动成为常态。
简言之,它是一个由 AI 来「上网」、执行任务、人类只是「发出指令」的网络形态。
Agentic Web 的核心在于「委托 + 执行」
在 Agentic Web 中,用户不再需要手动搜索、点击、复制或粘贴内容,而是可以通过与智能体的对话来委托任务。比如用户只需说:
「帮我规划一个周末东京行程,预算 3 千元,要避开台风。」
之后,剩下的所有工作都由智能体自动完成 —— 从查询天气、搜寻航班、比对价格,到预定酒店、整合日程,整个过程完全自动化。而且,这些智能体可以与其他智能体 (如航司 API、酒店 API、旅游数据智能体等) 协作与谈判,实现任务目标。这不仅仅是像 ChatGPT 那样的单轮问答,而是通过多个步骤和多智能体协作来完成的,代表着 AI 真正参与到了 Web 的操作层面。
Agent 在系统中的身份是「双重」的:
- Agent-as-User (作为用户)
如同人类访问网页一样,智能体可以模拟点击、填写表单、读取接口,进行市场分析、数据抓取、自动交易等任务。
- Agent-as-Interface (作为接口)
智能体也可以作为「超级助手」,接收用户的自然语言指令,自动解析、调用多个服务、整合结果,执行多步流程。
一个完备的智能体,常常同时具备这两个角色:既能代表人类与系统交互,也能作为系统对人类的接口,真正实现「意图—执行」的闭环。
三、理解 Agentic Web 的「三个核心维度」
论文从三个核心维度全面理解 Agentic Web 的结构:
- 智能维度 (Intelligence)AI 智能体需要具备真正的「认知能力」,包括:
- 上下文理解:能读懂网页、结构化数据、自然语言
- 长程规划:能分解复杂任务,生成执行计划
- 适应性学习:通过经验不断优化策略
- 多模态整合:同时处理文本、图像、API、数据表格等
这些能力意味着智能体不是被动的「响应工具」,而是具有持续学习和自主策略的「数字行动体」。
- 交互维度 (Interaction)Agentic Web 打破了「人类点击网页」的操作范式,转向基于语义的智能交互:
- 使用 MCP (Model Context Protocol)、A2A (Agent-to-Agent) 协议,实现智能体之间的发现、能力描述、状态共享
- 支持多步任务语境保持 (如购物流程、问诊流程)
- 实现 Agent-to-Agent 协作与任务拆解
智能体之间不是「调用」,而是协商、协同执行,如一个旅游智能体主动向天气智能体请求数据,再联动地图与订票工具,完成任务。
- 经济维度 (Economy)
Agentic Web 中,最具突破性的设想是:Agent Attention Economy (智能体注意力经济)
传统广告模型追求「人类点击」;Agentic Web 中,资源方争夺的对象变成「AI 智能体的调用」。
这意味着未来将出现:
- 面向智能体的推荐系统;
- 为智能体投放的广告;
- 服务市场中按「智能体调用率」竞价;
智能体的调用频次、完成率、效率将成为新的「流量指标」,商业竞争的重心也将从争夺用户注意力,转向争夺智能体「注意力」。
四、应用场景:从搜索替代到智能事务系统
为了更好地理解它的实际价值,我们可以将 Agentic Web 的核心能力拆解为三大类:事务型 (Transactional)、信息型 (Informational) 和交流型 (Communicational)。它们共同构成了智能体参与数字世界的三种基本方式。
事务型:从「点击下单」到「全自动完成任务」
传统 Web 中,用户需要逐页浏览、搜索信息、逐步操作才能完成一项任务,例如订酒店、买机票、办签证。而在 Agentic Web 中,你只需告诉智能体一句话:
「帮我订一个下周三从上海到东京的往返机票,经济舱,避开台风。」
剩下的 —— 查询航司、比价、确认时间、填写资料、支付确认 —— 都由智能体自主完成。它不仅调用航司 API,还能根据你过往偏好 (如信用卡积分、环保航线) 进行权衡,甚至在发生变更时自动重订。
这种智能化的事务处理能力,正在由「Mobile Agents」「App Agents」进一步延展到设备层。例如,智能体可以在你的手机上同步日程、修改会议安排、甚至整合多个应用自动执行跨平台任务。
信息型:从「搜索引擎」到「持续知识发现」
今天的信息检索依赖搜索引擎和社交推荐,但在数据过载的背景下,我们获取的是信息洪流。
Agentic Web 支持的「信息型智能体」,则更像是一个长期陪伴式研究助理。以「Deepresearch Agent」为例:
- 它可以持续追踪一个研究领域的新论文;
- 自动梳理引用网络和方法论差异;
- 合理推断趋势、生成研究摘要;
- 甚至根据你的研究兴趣,推荐潜在合作者。
这种智能体并不是一次性地「查一查」,而是具备长期「认知记忆」和动态「学习能力」的信息分析引擎。它们协作构成一个持续进化的知识网络,大大提升了信息筛选和洞察能力。
交流型:智能体之间能沟通、协作、谈判
相比以人为中心的传统 Web,Agentic Web 真正的变革在于让智能体可以与其他智能体协作,形成类似「数字组织」的多体系统。
在科研领域,一个跨国研究项目中,不同学校的智能体可以:
- 自动同步实验时间表;
- 共享数据集;
- 生成联合成果;
- 自动分配署名与经费比例。
在制造业或供应链中,不同企业的智能体可实时对接需求、响应变化、自主协商条款。这种跨智能体协同工作流,依赖于一整套新型通信协议 (如 MCP、A2A),支持语义对齐、任务协同与多方自治。
简而言之:Web 不再是人和机器x之间的桥梁,而是智能体之间的操作舞台。
五、挑战:Agentic Web 的复杂难题与未来瓶颈
虽然 Agentic Web 展现出令人兴奋的前景,但要真正落地为现实中的下一代互联网,它面临的是一组系统性、相互交织、跨学科的复杂挑战 —— 远不只是提升 AI 智能体的能力,更关乎整个网络基础设施、经济体系与人机协作范式的重构。
这不仅是个技术性难题,更是一个需要全局观的系统性工程。构建 Agentic Web 的难题,远不仅仅是提高个体智能体的能力,而是如何在现有互联网基础上,架构出一个可靠、安全、可信的全新计算层。这些挑战跨越了多个领域,彼此之间存在深刻的相互依赖与关联。接下来,我们将逐一解析这些挑战。
智能体基础能力:推理、记忆与安全性
- 🧠 推理与规划的脆弱性
多步骤推理是 Agentic Web 的核心能力之一,它能够让智能体分解复杂问题、评估多个解决方案、做出合适的决策。然而,目前的推理系统仍然脆弱,容易出错,难以进行长远规划和持续反思。
- 🧠 记忆与上下文管理
记忆是智能体能否有效执行长时任务的基础。传统的大语言模型 (LLM) 是无状态的,智能体需要外部机制来保留上下文、历史记录和学习到的知识。然而,如何高效管理这些记忆,尤其是在复杂任务中有效衔接不同阶段的内容,依然是亟待解决的难题。
- 🧠 工具使用的安全性
智能体依赖外部工具 (如 API、数据库、搜索引擎) 来与现实世界互动。然而,这也带来了极大的安全隐患:工具如果被黑客篡改或受到攻击,智能体可能会受到影响,甚至引发连锁反应。解决这个「工具使用悖论」,需要构建「零信任」架构,确保所有外部输入都经过严格验证。
学习与自我改进:从静态模型到动态学习者
- 🎓 奖励设计难题
强化学习 (RL) 是训练智能体的核心方法之一,它通过与环境的交互来优化决策过程。然而,设计一个既能引导智能体正确行为又不容易被滥用的奖励机制,依然是目前的瓶颈。
- 🎓 持续学习与灾难性遗忘
智能体需要具备持续学习的能力,以便随着时间积累新技能。但在学习新任务时,智能体常常会忘记之前学到的知识,这就是所谓的「灾难性遗忘」问题。如何让智能体在不忘记旧知识的情况下学习新内容,是目前面临的重大挑战。
- 🎓 任务交互学习的困难
通过与环境的互动来学习复杂任务是智能体成长的关键。然而,如何避免智能体过度依赖某一特定环境,或者过度拟合特定的输入,保持任务的灵活性和广泛适应性,仍是一个悬而未解的问题。
多代理协作:协调与信任的挑战
- 🤖 协作与沟通:结构设计难题
当多个智能体协同工作时,如何组织它们的结构成了关键问题:是采取平等对等的协作方式?还是分层领导?每种结构都有其利弊,如何找到最优解,仍需深入研究。
- 🤖 通信协议的统一性
为了让全球的智能体能够有效沟通与协作,我们亟需统一的通信协议。这类似于互联网早期对 HTTP 协议的依赖。当前,像 IBM ACP、Google A2A、Anthropic MCP 等协议正在试图解决这一问题。如何建立一个既能满足复杂交互需求,又具备开放性、易扩展性的标准,将是 Agentic Web 成功的关键。
- 🤖 去中心化的信任体系
在去中心化的智能体生态中,如何确保代理之间的信任?如何构建去中心化的信任体系,让智能体在没有人工干预的情况下高效合作,是另一个亟待解决的问题。
人机交互:确保智能体与用户目标一致
- 🧑💼 用户意图模糊
人类语言本身就常常模糊不清,很多时候用户的指令包含不明确的目标或信息。智能体必须能够解读这种模糊的意图,并将其转化为可执行的目标和任务。
- 🧑💼 偏好发现与引导
用户的偏好常常是变化的,甚至很多时候用户自己都不完全了解自己真正的需求。智能体需要通过与用户的互动,不断引导用户发现并明确自己的偏好。
- 🧑💼 人类监督机制
尽管智能体在很多任务中表现出色,但对于关键任务或高风险决策,人类监督 (HITL) 依然是不可或缺的。如何设计有效的监督机制,以确保智能体的决策能符合人类的最终目标,是一个至关重要的问题。
安全与鲁棒性:确保智能体系统的安全性与稳定性
- 🔒 风险激增,信任重构
代理型网络引入跨平台操作、交易执行和多会话记忆等新能力,带来目标漂移、服务污染、协调风暴等多维安全威胁。传统基于人工验证的信任模型已难以适应,需重构认知、交互、经济层的防护机制。
- 🔒 红队测试机制:人工+自动并进
人工与自动红队测试成为识别漏洞的核心手段。尤其是自动红队利用 LLMs 构造复杂对抗场景,适应多设备与多代理协作,揭示隐藏威胁,已成为部署前安全评估的关键工具。
- 🔒 推理护栏与可控生成并举
部署阶段的防御策略包括「推理防护栏」、「安全解码器」、访问控制等机制,提升 LLMs 与代理系统的稳健性与可控性。未来还需从架构、策略到系统范围全面升级,以应对级联攻击与持续学习挑战。
社会经济影响:重构商业模型与社会结构
- 💰 广告经济难以为继
当前的广告驱动型商业模式正在被 Agentic Web 持续冲击。代理不再是「为人类眼睛设计」的工具,而是直接与服务提供方交易、执行任务。因此,广告模式已经难以适应这一新生态。
- 💰 新型商业模式的诞生
交易型、订阅制、按结果收费等新型商业模型正在崛起,这为未来互联网的运营带来了全新的思路。未来的商业模式,可能会更多地依赖智能体作为服务提供者。
- 💰 劳动市场与不平等
随着智能体的普及,很多职业可能被自动化替代,劳动市场将面临巨大的冲击。因此,如何平衡 AI 与人类就业,如何确保经济利益公平分配,成为全球关注的社会问题。
六、总结:Agentic Web 是 AI 真正连接现实的入口
我们正在见证互联网从「信息空间」迈向「行动空间」的转型。
Agentic Web 并不是传统意义上的一次技术升级,而是一场范式革新 —— 它让网络从被动展示信息,转变为主动完成任务;让 AI 不再只是一个回答问题的工具,而是一个可以代表人类行动、协作、决策的「数字代理」。
这种变革所带来的,不仅是效率的提升,更是人与机器关系的重构、网络经济模式的重塑,以及全新社会秩序的建立。
但与此同时,Agentic Web 的前路充满挑战:技术仍需突破、标准尚未统一、安全风险不容忽视、经济模型有待探索。这不仅是工程问题,更是伦理问题、社会问题、治理问题。
无论结果如何,Agentic Web 已不再是科幻构想,而是迫在眉睫的系统挑战。
结语
Agentic Web,不只是「AI 代理能干更多事」,它是让整个 Web 变成一个「活的协作系统」,是 AI 与人类共创未来互联网的操作系统。
你未来不再「点网页」,而是让智能体帮你完成目标。网页正在变成智能体,搜索正在变成协同,点击正在变成意图。
我们正站在互联网的又一次巨大跃迁的门槛上。
#云计算一哥首度牵手OpenAI
大模型「选择」自由,才是终极胜利
昨天是个热闹的日子,OpenAI 和 Anthropic 几乎在同一时间发布了自家的新款模型:前者是自 GPT-2 以来重新开源的两款模型 gpt-oss(120b 和 20b),后者是 Claude 系列最强的 Opus 4.1。
模型刚发布没多久,当大家还没从 OpenAI 和 Anthropic 两家的新模型遭遇战中缓过劲来的时候,云计算一哥大手一挥:「我全都要!」
亚马逊云科技重磅宣布,首次通过 Amazon Bedrock 和 Amazon SageMaker AI 两大平台实现对 OpenAI 新开源模型的支持。此次与 OpenAI 的「首度牵手」将为亚马逊云科技的客户提供又一个强有力的模型选择,并增强其在大模型相关云服务市场的竞争优势。
对于亚马逊云科技与 OpenAI 的合作,评论区的网友不淡定了,直呼「不可思议」。这标志着,微软将不再是唯一一家可以转售 OpenAI 软件和服务的云服务商,其一家独大的地位如今被亚马逊云科技打破了,真可谓是 AI 行业的一件大事。
与此同时,对于 Anthropic 的最新最强模型 Claude Opus 4.1,亚马逊云科技也第一时间宣布上线 Amazon Bedrock,进一步加深双方在前沿大模型技术上的战略协同。
这波新模型的上线速度堪称「云界」楷模,尤其是首次上线 OpenAI 的开放权重模型,并不是亚马逊云科技的临时起意,一切都有迹可循。
早在 2023 年 4 月,亚马逊云科技正式推出了 Amazon Bedrock 平台,通过与主流大模型厂商的合作开放使用多样化的前沿基础模型。彼时,业界追逐的还是「单一终极 AI 模型」。该平台的出现标志着亚马逊云科技前瞻性地追求「多模型协同、按需定制」的范式。2024 年,亚马逊云科技又提出 Choice Matters(选择大于一切)的生成式 AI 战略,延续这一差异化技术路线,围绕 Amazon Bedrock 以及另一 Amazon SageMaker 平台聚合了上百款商业及开源模型。
一头是模型供应商,另一头是模型使用者,亚马逊云科技搭建起「连接 AI 能力与实际价值」的桥梁。随着两大平台上支持模型的规模不断壮大,一个多元化、覆盖广泛的 AI 生态系统正在逐渐形成。
随着此次 OpenAI 模型的接入,亚马逊云科技补上了其模型库的一块关键拼图,同时也将其践行 Choice Matters 的承诺推向了新的高度。
AI 巨头纷纷集结
云计算一哥打造最强 AI 生态系统
在 Choice Matters 所倡导的多模型选择框架下,「没有一个大模型可以一统天下」,成为亚马逊云科技一直强调的核心理念。
在现实应用中,不同的行业需求和业务场景天然要求特定的大模型,比如翻译场景,用 DeepSeek R1 和 Claude 3.7 处理难度大的专业翻译、用 Amazon Nova Lite 处理日常用语。比如深度研究场景,用 DeepSeek R1 和 Claude 4 专门负责推理,用 Claude Haiku 处理具体的函数调用。因此,选择多样化是必然趋势。
作为亚马逊云科技的两大核心平台,Amazon Bedrock 和 Amazon SageMaker 各自发挥重要作用,前者通过提供商业 API 服务来调用业界主流大模型,后者专注于开源等模型的部署和托管,并根据特定需求进行微调和优化。两个平台协同并进,满足从快速集成到定制化开发的全面需求。
如今这两大平台上汇聚的 400+ 款主流商业及开源大模型,让亚马逊云科技的 Choice Matters 战略具象化,极大地满足了不同客户在生成式 AI 应用中的多样化需求。这种多平台、多模型的生态系统,加速了整个 AI 行业技术的普及与创新。
强强联合,亚马逊云科技与 OpenAI 开启合作新范式
在上个月的纽约峰会上,亚马逊云科技官宣,在 Amazon Bedrock 上完全托管的大模型厂商已达到 12 家,包括 AI21 Labs、Amazon、Anthropic、Cohere、DeepSeek、Luma AI、Meta、Mistral AI、Poolside、Stability AI、Writer 和 TwelveLabs。
不过,Amazon Bedrock 模型库中一直都缺少了 OpenAI 的身影。「亚马逊云科技何时会接入 OpenAI 的大模型」,这成为了业内人士关注的焦点之一。
这一次,亚马逊云科技迈出了突破性的一步,将 OpenAI 的开放权重模型纳入自家平台,使这家 AI 巨头成为 Amazon Bedrock 上第 13 家完全托管的大模型厂商。
一方面,得益于这两款开放权重模型接近 SOTA 级别的推理能力,它们尤其适合 AI 智能体场景。因此,借助 Amazon Bedrock AgentCore,客户可以使用 Bedrock 上原生运行的 OpenAI 模型高效地部署和运行智能体,提供生产应用所需的规模和安全性。同时客户还可以将这两款模型与 Amazon Bedrock 的企业级安全功能及强大的工具无缝集成,比如利用 Guardrails 及其可配置的安全措施可以阻止高达 88% 的有害内容,并支持定制模型导入、知识库等高级功能。
不仅如此,在 Amazon Bedrock 上,运行 gpt-oss-120b 的性价比是性能相当的 Google Gemini 的 3 倍、DeepSeek-R1 的 5 倍,以及 OpenAI o4 的 2 倍。这意味着,亚马逊云科技的客户可以用更少的投入体验到与闭源大模型同等水平的开源平替,尤其为预算有限的中小企业提供了接入顶级 AI 能力的机会。
另一方面,借助 Amazon SageMaker JumpStart,客户可以快速部署内置的先进基础模型,包括此次 OpenAI 的两款开放权重模型,并通过用于预训练、评估、微调和部署的综合性工具,更高效地进行 AI 应用的定制与优化,提升模型在实际应用中的精度和可靠性。
亚马逊云科技与 OpenAI 的此番合作,无疑将带来双赢的局面。可以预见,以此为契机,未来双方之间的合作将充满更多可能性。
对于亚马逊云科技而言,这不仅填补了其在模型供应上的一个重要空白,真正实现「全明星」模型战略;并且向市场传递出了一个明确的信号:亚马逊云科技将持续加大对生成式 AI 技术的投入,以满足客户日益增长的多样化需求,力争成为各类 AI 模型部署与运行的首选。
另外,通过接入 OpenAI 的开放权重模型,亚马逊云科技在推动开源模型应用方面走出了关键的一步,并紧跟当前业界开源的主流趋势。正如亚马逊云科技产品总监 Atul Deo 所言:「开放权重模型是未来生成式 AI 技术发展的重要创新领域,因此我们致力于将自身打造为运行这些模型的最佳平台。」
反过来,对于 OpenAI 而言,与全球最大的云服务商建立起合作,意味着其领先的 AI 技术将触达亚马逊云科技的数百万客户,持续巩固和扩展其技术与市场影响力。同时,OpenAI 在微软之外又将全球最大云服务商作为自己的原生模型托管平台,不仅拓宽其营收渠道、提升模型商业化效率,还将继续强化其在全球云生态博弈中的议价能力与自主权。
深化联盟,第一时间上线 Claude Opus 4.1
对于现有合作伙伴最新大模型的支持节奏,亚马逊云科技做到了即时跟进。因此 Anthropic 最新一代模型一经推出,亚马逊云科技便官宣了对它的全面支持。
相较于前代,Claude Opus 4.1 性能大幅提升,支持即时响应和「深度思考」两种推理模式,并为多步骤工作流、编程和高级推理提供了更强大的 AI 智能体支持。
现在,通过 Amazon Bedrock,这些强大的混合推理模型将第一时间向客户开放使用。
有了 OpenAI 开放权重模型以及 Anthropic 最新模型的加入,Amazon Bedrock 上完全托管的大模型总数达到了 223 款,而 Amazon SageMaker 上的开源大模型总数也达到了 185 款,为客户第一时间部署运行最新大模型提供了便捷渠道。
随着托管平台持续引入更多大模型厂商并不断扩充大模型数量,亚马逊云科技正逐渐达成其构建最强 AI 生态系统的愿景与目标。包括 OpenAI、Anthropic 在内,13 家主流厂商使得 Amazon Bedrock 和 Amazon SageMaker 平台的技术多样性与可选空间大大增加,为亚马逊云科技构建多模型并存、多场景适配的开放 AI 生态打下了基础,并将重塑生态话语权。
而通过与全球领先 AI 公司的深度合作,亚马逊云科技自身的角色也在发生潜移默化的变化,从云服务提供商升级为 AI 能力聚合平台,在「模型-平台-客户」的强大闭环中更好地服务于客户与开发者。
模型自由,才是终极胜利
在 AI 领域,一直存在着一个「准确-速度-性价比」的不可能三角;也就是说,没有一个模型能够同时满足准确、速度、性价比三个要素。
与此同时,因为具体需求的不同,现实任务又对这些要素有着不同的侧重,比如实时翻译更侧重于速度和准确性,语音转录则可能更注重准确与性价比。这种任务需求的多样性,使得任何单一模型都无法「一招鲜吃遍天」。
亚马逊云科技的 Choice Matters 战略恰恰是对这一现实的绝佳回应。不管你的需求位于这个三角的哪个位置,都能够在 Amazon Bedrock 或 Amazon SageMaker 上找到最适合自己的模型。
以个人开发者为例,如果你需要一位办事牢靠的编程大师,Claude Opus 4.1 便是你当之无愧的选择,它在编程和高级推理方面处于行业领先水平。而如果成本也是你考虑的关键因素,使用性价比更高的 gpt-oss-20B 自然也无不可,该模型同样出众的能力足以胜任许多日常任务。
再以企业开发者为例,选择合适的大模型更关乎自身规模化部署以及业务效率、稳定性的实现。大模型能否支撑关键业务流程、是否具备定制化能力以及能否在安全合规框架下高效运行是企业关注的重点。
在亚马逊云科技提供的平台上,这一切都可以得到满足。通过统一的 API 接口、企业级的访问控制和数据加密机制,帮助企业开发者更快速、更安全、更低门槛地将所需 AI 能力融入自身业务流程之中。
因此,无论是构建一个智能客服系统,还是打造一个个性化推荐引擎,企业开发者按需调用和配置最适合的模型,并进一步微调与定制化,通过在真实业务场景中的持续高效运行产生可量化的收益,最终实现商业价值。
如此一来,使用亚马逊云科技服务的开发者们将成为最大的赢家,而这也将进一步惠及整个 AI 生态。
过去,为了满足不同的任务需求,开发者需要在不同云平台、不同 API 之间艰难选择,还会在模型的兼容、集成、切换和维护上耗费大量精力。现在,亚马逊云科技将所有一切都汇集到了一个平台上。
这不仅极大地降低了开发和运维的复杂度,更意味着开发者终于可以将精力从繁琐的底层工作中解放出来,真正地聚焦于业务逻辑与应用创新,用最合适的工具、最高效地解决最关键的问题。
写在最后
当前,AI 领域一个明显的现象是:基础大模型能力的增长受限于 Scaling Laws 而逐渐放缓。头部大模型厂商的最新产品即使依然能够在一些性能指标上有所增长,但这种提升似乎无法达到人们的预期。相比之下,像几年前 GPT-3 等跨时代大模型带来的震撼,已经很长时间不再出现了。
在最强大模型边际效益趋于减缓的当下,「如何更高效地挖掘和应用大模型的潜力」,这一关键使命落在了包括亚马逊云科技在内的云服务商的肩上。
归根结底,亚马逊云科技一次次快如闪电的操作,最终指向的是同一个目标:最大化赋能客户与开发者。
此次的「左右开弓」,堪称一次教科书级别的平台战略布局。无论是破天荒地首次引入 OpenAI 的模型,还是一如既往第一时间上线 Claude 最新模型,本质上都是为了将选择的权利和创造的自由交还给每一位客户与开发者。
这种「模型及 AI 能力自由」的实现,让所有人不需要为选择而烦恼。客户与开发者不再受制于某一家模型供应商的技术更新节奏,亚马逊云科技也从单一模型的支持者跃升为统筹多模型生态的中枢。
当最强、最高效、最有性价比的模型都被放在同一个工具箱中,我们可以合理地预测,一个如著名数学家陶哲轩期望的「AI 应用大爆发时代」将马上到来。
从单点工具到多智能体协同,从辅助编程到全流程自动化,下一代的颠覆性 AI 应用或许就将诞生于不同模型的自由组合之中。
参考链接:
https://www.aboutamazon.com/news/aws/openai-models-amazon-bedrock-sagemaker
https://www.aboutamazon.com/news/aws/anthropic-claude-4-opus-sonnet-amazon-bedrock