当前位置：首页 > news >正文

51c大模型~合集39

news 2025/10/29 9:11:39

我自己的原文哦~ https://blog.51cto.com/u_16839134/11815394

#文本数据中加点代码

明确了：文本数据中加点代码，训练出的大模型更强、更通用

代码知识原来这么重要。

如今说起大语言模型（LLM），写代码能力恐怕是「君子六艺」必不可少的一项。

在预训练数据集中包含代码，即使对于并非专门为代码设计的大模型来说，也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用，但分析代码对非代码任务的精确影响的工作却非常有限。

在最近由 Cohere 等机构提交的一项工作中，研究者系统地研究了代码数据对通用大模型性能的影响。

论文链接：https://arxiv.org/abs/2408.10914

设问「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任务、代码基准和 LLM-as-a-judge 胜率进行了广泛的消融和评估，模型的参数大小从 4.7 亿到 2.8 亿个参数不等。

在各种配置中，我们可以看到存在一致的结果：代码是泛化的关键模块，远远超出了编码任务的范围，并且代码质量的改进对所有任务都有巨大影响。预训练期间投资代码质量和保留代码数据，可以产生积极影响。

这里有几个因素很重要，包括确保代码比例正确、通过包含合成代码和代码相邻数据（例如 commits）来提高代码质量，以及在冷却期间等多个训练阶段利用代码。该研究结果表明，代码是泛化的关键构建块，远远超出了编码任务的范围，代码质量的提高对性能有巨大的影响。

再进一步，作者对广泛的基准进行了广泛的评估，涵盖世界知识任务、自然语言推理和代码生成，以及 LLM 作为评判者的胜率。在对 4.7 亿到 28 亿参数模型进行实验后，以下是详细结果：

1. 代码为非代码任务的性能提供了重大改进。使用代码预训练模型进行初始化可提高自然语言任务的性能。特别是，与纯文本预训练相比，添加代码可使自然语言推理能力相对增加 8.2%，世界知识增加 4.2%，生成胜率提高 6.6%，代码性能提高 12 倍。

2. 代码质量和属性很重要。使用标记样式的编程语言、代码相邻数据集（例如 GitHub commits）和合成生成的代码可提高预训练的性能。特别是，与预训练中的基于 Web 的代码数据相比，在更高质量的合成生成的代码数据集上进行训练可使自然语言推理和代码性能分别提高 9% 和 44%。此外，与不包含代码数据的代码模型初始化相比，包含合成数据的代码模型持续预训练分别使自然语言推理和代码性能相对提高 1.9% 和 41%。

3. 冷却中的代码可进一步改善所有任务。在预训练冷却中包含代码数据，其中高质量数据集被加权，与冷却前的模型相比，自然语言推理性能增加 3.6%，世界知识增加 10.1%，代码性能增加 20%。更重要的是，包含代码的冷却比基线（无冷却的模型）的胜率高出 52.3%，其中胜率比无代码的冷却高出 4.1%。

方法概览

在方法部分，研究者从预训练数据、评估、训练与模型细节三个部分着手进行介绍。下图 1 为高级实验框架。

预训练数据

研究者描述了预训练和冷却（cooldown）数据集的细节。目标是在当前 SOTA 实践的标准下，评估代码在预训练中的作用。因此，他们考虑了由以下两个阶段组成的预训练运行，即持续预训练和冷却。

其中持续预训练是指训练一个从预训练模型初始化而来并在固定 token 预算下训练的模型。冷却是指在训练的最后阶段，提高高质量数据集的权重并对相对较少数量的 token 进行学习率的退火。

关于文本数据集，研究者使用 SlimPajama 预训练语料库作为他们的自然语言文本数据源。

关于代码数据集，为了探索不同属性的代码数据的影响，研究者使用了不同类型的代码源，包括如下：

基于 web 的代码数据，这是主要的代码数据源，包括用于训练 StarCoder 的 Stack 数据集。该数据集包含了爬取自 GitHub 的自由授权的代码数据。研究者使用了质量过滤器，并选定了基于文档数（document count）的前 25 种编程语言。在走完所有过滤步骤后，仅代码和 markup 子集的规模为 139B tokens。

Markdown 数据。研究者单独处理了 mark-up 风格的语言，比如 Markdown、CSS 和 HTML。走完所有过滤步骤后，markup 子集的规模为 180B tokens。

合成代码数据。为了对代码数据集进行消融测试，研究者使用了专门的合成生成代码数据集，包含已经正式验证过的 Python 编程问题。他们将该数据集作为高质量代码数据源，最终的合成数据集规模为 3.2B tokens。

相邻代码数据。为了探索不同属性的代码数据，研究者还使用了包含 GitHub 提交、jupyter notebooks、StackExchange threads 等辅助数据的代码数据。这类数据的规模为 21.4B tokens。

预训练冷却数据集。冷却包含在预训练最后阶段提高更高质量数据集的权重。对此，研究者选择了包含高质量文本、数学、代码和指令型文本数据集的预训练冷却混合。

评估

本文的目标是系统地理解代码对通用任务性能的影响，因此使用了一个广泛的评估组件，涵盖了包含代码生成在内的多样下游任务。

为此，研究者在包含 1）世界知识、2）自然语言推理和 3）代码性能的基准上对模型进行了评估。此外，他们还报告了通过 LLM-as-a-judge 评估的胜率（win-rates）。

下表 1 展示了完整的评估组件以及相应的任务、数据集、指标。

研究者对不同规模的模型（从 470M 到 2.8B 参数）展开了性能评估。由于最小规模的模型能力有限，因此为了保证公平比较，他们只比较了所有模型均能达到随机以上性能的基准。

除了特定于任务的判别式性能，研究者评估了使用 LLM-as-a-judge 胜率的生成式性能。

训练与模型细节

如上文所说，对于预训练模型，研究者使用了 470M 到 2.8B 参数的 decoder-only 自回归 Transformer 模型，它们按照标准语言建模目标来训练。

具体来讲，研究者使用了并行注意力层、SwiGLU 激活、没有偏差的密集层和包含 256000 个词汇的字节对编码（BPE）tokenizer。所有模型使用 AdamW 优化器进行预训练，批大小为 512，余弦学习率调度器的预热步为 1325，最大序列长度为 8192。

在基础设施方面，研究者使用 TPU v5e 芯片进行训练和评估。所有模型在训练中使用了 FAX 框架。为了严格进行消融评估，研究者总共预训练了 64 个模型。每次预训练运行使用 200B tokens，470M 参数模型用了 4736 TPU 芯片时，2.8B 参数模型用了 13824 TPU 芯片时。每次冷却运行使用了 40B tokens，470M 参数模型用了 1024 TPU 芯片时。

实验结果

该研究展开了系统的实验，探究了以下几方面的影响：

使用代码预训练模型初始化 LLM

模型规模

预训练数据中代码的不同比例

代码数据的质量和属性

预训练冷却中的代码数据

为了探究使用具有大量代码数据的 LM 作为初始化是否可以提高模型性能，该研究针对不同的预训练模型初始化进行了实验。如图 2 所示，使用 100% 代码预训练模型（code→text）进行初始化能让模型在自然语言 (NL) 推理基准上获得最佳性能，紧随其后的是 balanced→text 模型。

为了了解上述结果是否可以迁移到更大的模型，该研究以 470M 模型相同的 token 预算，训练了 2.8B 参数模型。下图显示了 2.8B 模型与 470M 模型的比较结果。

该研究探究了预训练中代码数据比例对不同任务模型性能的影响，观察到随着预训练代码数据比例的增加，代码任务的性能呈线性提高，而对于 NL 推理任务和世界知识任务则存在效益最明显的最佳代码数据比例范围。

如图 5 (a) 所示，在评估代码质量和代码构成的影响方面，该研究观察到，包含不同的代码源和合成代码，都会导致自然语言性能的提高，但是，只有合成生成的代码才能提高代码性能。

如图 5 (b) 所示，在 NL 推理任务和代码任务中，balanced+synth→text 比 balanced→text 分别实现了 2% 和 35% 的相对改进。这进一步证实，即使是一小部分的高质量代码数据，也可以提高代码和非代码任务的性能。

如图 6 所示，该研究发现：在预训练冷却中包含代码数据，模型的NL推理性能增加 3.6%，世界知识性能增加 10.1%，代码性能增加 20%。

如图 7 所示，正如预期的那样，冷却对以胜率衡量的生成性能有重大影响。

众所周知，世界模型是一种让 AI「想象未来」的学习方法。它可以从大量数据中学习世界的运行规律，然后根据当前状态预测未来可能发生的事情。这种能力非常关键，因为如果 AI 能对未来做出合理预测，就能提前规划出更聪明、更稳健的行动策略。

在实践中，世界模型的实现形式多种多样，从小规模的基于状态的动力学模型，到大型的基于动作条件的视频预测模型都有。但无论形式如何，大多数模型都会尝试「还原未来的画面」。这种方法虽然常常能生成逼真的图像，但却不一定适合用来做决策。原因在于：图像看起来再真实，也可能漏掉一些真正关键的语义细节 —— 比如两个物体是否真的发生了接触。

过去有一些方法尝试只建模「与任务相关」的信息，但这类方法往往需要额外的假设，比如必须知道奖励函数或任务中某些已知因素。这让它们在实际使用中变得不太灵活。

如果像素信息并非规划所必需，那么做出行动决策所真正需要的是什么？

这篇论文提出：能够预测关于未来结果的语义信息就足够了。世界模型不应再专注于预测原始的视觉帧，而应捕捉与任务相关的对象及其交互信息，例如：「机械臂是否更靠近目标物体？」「红色方块是否倾倒？」「蓝色球是否被拾起？」

论文将这种信息建模为一个关于未来的视觉问答（VQA）问题，利用这样一个事实：任何目标结果都可以用一系列「是 / 否」问题来表达。换言之，世界建模问题可以被重新定义为一个关于未来结果的 VQA 问题。

目前已有一类模型具备完善的视觉问答工具体系，即视觉语言模型（VLM）。在世界建模任务中，VLM 具有两大优势：

一是，它们通过大规模预训练获得了强大的视觉问答能力与广泛的泛化能力；
二是，它们编码了关于任务与场景语义特征的先验知识。

这些优势使得前沿的 VLM 能够提出与任务相关的问题，并在给定静态观测时给出可靠的答案。然而，它们缺乏对未来结果的预测能力，这限制了它们在决策任务中的直接应用。

为此，新论文提出了「语义世界模型（Semantic World Model, SWM）」的概念。SVM 是一种具备泛化能力的世界模型，它以动作条件的视觉语言模型形式存在，能够回答关于未来动作语义效果的问题。

论文标题：SEMANTIC WORLD MODELS
论文链接：https://arxiv.org/pdf/2510.19818
项目链接：https://weirdlabuw.github.io/swm/

与传统预测未来帧的世界模型不同，SWM 在给定当前观测（图像表示）与动作序列的情况下，回答关于未来的自然语言问题。

如图 1 所示，模型输入包括：当前观测、一系列拟执行的动作，以及一个关于未来的自然语言提问。模型通过理解这些动作在环境中将带来的后果，生成相应的文本回答。

由于 SWM 本质上是一个与任务无关的世界模型，它可以在对通用序列数据质量要求极低的情况下进行训练，这些数据包括游戏数据和非最优数据。训练数据可以很容易地从任何（专家或非专家）数据语料库中获取，其格式为当前观测结果、行动、（关于未来的）问题以及预期答案。

通过 SWM 来推理未来结果，AI 就能够在动作空间中进行灵活的、开放世界的多任务规划。

当任务以自然语言描述时，系统可以有两种方式理解目标：要么利用预训练好的 VLM 自动解析任务意图，要么由人类将任务拆解成一组文本化的「问题 — 期望答案」对。在得到这组问答之后，SWM 就可以用来规划动作，使得未来得到这些期望答案的可能性最大化。

给定自然语言形式的任务说明，人们既可以利用预训练的 VLM，也可以手动将任务说明分解为一组问题以及文本形式的预期答案。有了这个问答集，SWM 就可以被用来规划动作，从而极有可能在未来得出这些问题的预期答案。

尽管有大量技术可用于这种规划，但本研究表明，它与零阶基于采样的方法以及一阶梯度规划方法都兼容，这些方法会针对预期似然目标进行优化。研究表明，这些规划方法在计算上是可行的，相比常规的动作选择方法，能在测试时带来显著改进。此外，它还展示了此类规划方法对多步骤长程问题的可扩展性。

在实验方面，SWM 在两个常用的多任务仿真环境 ——Language Table（LangTable）与 OGBench—— 上进行了评估。结果表明：SWM 能够准确回答关于未来结果的问题，并能泛化到新场景中。SWM 可以与基于采样的标准规划技术以及基于梯度的改进技术相结合，通过测试时优化实现显著的策略改进，从而解决各种机器人任务。

综上所述，SWM 代表了一类新型的世界模型，它利用 VLM 的丰富预训练知识，实现了可落地、灵活且可扩展的机器人控制。

，时长00:49

语义世界模型概览

下图 2 展示了语义世界模型的概况。SWM 是一种视觉语言模型，经过调整后能够回答与未来相关的问题，这些问题由用于调整模型的动作所决定。通过一系列问题和期望的答案，其预测可以转化为规划信号，并迭代优化动作序列。

数据集生成

为了训练一个能够回答关于未来问题的世界模型，本文生成了一个状态 - 动作 - 问题 - 答案（SAQA）数据集。图 3 展示了该数据集中一个单独的状态与多个问题和答案的配对情况。

架构概览

SWM 是一个能够在给定动作条件下回答关于未来事件问题的模型。具备这种能力的模型本质上是一种带有动作条件的视觉问答模型。因此，从大型预训练视觉语言模型（VLM）出发，将其泛化能力迁移到机器人任务中是很自然的做法。这种 SWM 架构基于开源的视觉语言模型 PaliGemma。

该模型包含三个核心预训练组件：一个基于 Transformer 的自回归语言模型（其 token 嵌入大小为 d_tok)、一个视觉编码器 v_ϕ（其特征大小为 d_img）以及一个投影矩阵

。PaliGemma 架构建立在两个单独训练的组件之上：Gemma 大语言模型和 SigLIP 图像编码器 V_sc。W 用于从 Z_sc 投影到 Z_LLM，其中 Z_sc 是 v_ϕ 的特征空间，Z_LLM 是大语言模型的输入 token 嵌入空间。本文使用 PaliGemma 的 30 亿参数检查点作为基础模型。

为了让基础模型能够就「某一特定未来（由行动产生）」回答问题，模型必须以这些行动为条件。为此，作者引入一个新的投影矩阵

，它将单个动作

映射到与 W 投影矩阵类似的潜空间 Z_LLM 中。

给定数据集 D_SAQA 中的一个元组 (S_i, a_{i:j}, Q_{S_j}, A_{S_j})，输入序列通过将图像嵌入、动作嵌入和问题 token 嵌入拼接而成：

随后，模型以端到端方式微调，通过优化标准交叉熵损失

来预测目标答案 A_{S_j}。

这种训练过程使模型能够在语言空间中捕捉环境的动态，从而在无需显式生成像素级表征的情况下回答有关未来状态的问题。

实验结果

SWM 是否是一个有效的决策世界模型？

首先，作者通过在 LangTable 和 OGBench 任务上将基于采样的规划方法 MPPI 应用于 SWM 模型，对 SWM 的规划能力进行评估。

如表 2 所示，可以直接在语义世界模型之上使用基于采样的规划方法进行规划，在两个环境中的到达和方块分离任务上都取得了接近完美的成功率。

然而，对于大型模型而言，基于采样的规划方法计算成本高昂，在需要更多样本的更具挑战性的任务上运行 MPPI 并不可行。因此，对于更复杂的任务，考虑这样一种场景：由一个基础策略生成候选轨迹，再利用 SWM 和基于梯度的优化对其进行细化。如图 5 所示，该方法能够对候选轨迹进行细化，并相比基础策略取得显著提升。在 LangTable 上，SWM 相比基础策略的平均性能从 14.4% 提升至 81.6%；在 OGBench 上，从 45.33% 提升至 76%。SWM 在所有任务上也均优于 AVD 和 IDQL 基线，展示了其在规划方面的有效性。

SWM 还通过先选择子目标，再围绕该子目标进行规划，展现出处理更长程任务的能力。如表 1 所示，在多步任务上，SWM 的平均策略改进幅度达 52.0%，优于 AVD 基线。

次优数据是否能提高建模性能？

从表 3 可以看出，混入次优数据比仅使用专家数据进行训练能提高准确率。SWM 仅通过次优数据训练也能达到中等水平的性能，这表明次优数据在训练语义世界模型方面是多么有效。

SWM 是否保留了基础 VLM 的泛化能力？

为了衡量 VLM 预训练对泛化能力的影响，作者在组合式和场景分布外环境中对 SWM 进行了评估，相关环境如图 6 所示。

为了衡量语义组合泛化能力，在 LangTable 环境中引入了一个新的彩色方块，并修改了现有的方块颜色 - 形状组合。表 4 显示，在这些条件下，与基础策略相比，SWM 平均提高了 20.0%。这一性能表明，SWM 能够保留部分预训练知识，从而实现组合泛化。

为了测试对背景变化的鲁棒性，作者将 OGBench 的背景颜色改为一种新的组合。与基础策略相比，SWM 的性能再次提升了 20%，并且能够泛化到这些条件，而 AVD 方法则无法做到这一点。

模型的内部表征是否关注与任务相关的信息？

为了理解模型所学的表征，作者从模型的一个中间层可视化了从语言 token 到图像 patch 的注意力图。如图 7 所示，模型会根据语言提示正确关注图像中与任务相关的位置。例如，当被问到「红色的月亮是否在接触蓝色的立方体？」时，与这些物体对应的图像 patch 上的注意力得分更高。尽管从未在涉及两个以上物体的问题上进行过微调，但研究发现，当被问及此类问题时，该模型能够正确关注三个物体。这表明该模型继承了预训练 VLM 的泛化能力。

....

#BEAR

大模型在xx推理上「翻车」了？4496 道题全面揭示短板

祁煜，2023年本科毕业于北京大学信息科学技术学院。目前为美国Northeastern University在读博士生，研究方向为机器人与机器学习, xx智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。

xx智能是近年来非常火概念。一个智能体（比如人）能够在环境中完成感知、理解与决策的闭环，并通过环境反馈不断进入新一轮循环，直至任务完成。这一过程往往依赖多种技能，涵盖了底层视觉对齐，空间感知，到上层决策的不同能力，这些能力便是广义上的xx智能。

已经有很多优秀的工作把多模态大语言模型（MLLMs）部署在xx智能的不同应用上。尽管已经有不少相关工作评估过他们xx智能的潜力，但主要集中在子领域上，比如给点（Pointing），空间推理（Spatial Reasoning）等等，也有一些工作在仿真里定义任务评估他们的性能，比如EmbodiedBench等，但是他们并没有把一个任务切分成一步步的原子技能，也就无法判断出到底是哪个细粒度的能力导致一个任务的失败。

BEAR基准为了系统评估MLLM在xx智能的各个子能力，美国东北大学联合香港中文大学，哈佛大学，提出了BEAR基准，并且提供了详细的错因分析和算法提升。

Arxiv链接：https://arxiv.org/abs/2510.08759
Huggingface链接：https://huggingface.co/papers/2510.08759
项目主页：https://bear-official66.github.io/

BEAR涵盖了4,469个图片-视频-文字的VQA。BEAR涵盖6个大类，其中包括5个基础类别，包括给点（Pointing）, 给检测框（Bounding Box）, 空间推理（Spatial Reasoning），任务规划（Task Planning），并且在每个类别下面还有不同子技能，如给点分为普通物体给点，空间关系给点和局部给点，共分为14个技能，见下图。除此之外，我们引入第六个长程推理类别，首次将xx智能的任务切分为以14个不同技能划分的步骤，涵盖了智能体在完成一个任务中所需要具备的技能。

测评实验实验部分，作者全面测量了20个不同的MLLM，并且测量了Direct和CoT不同的prompt, 而且将常见的test-time-scaling methods都进行了实验，得出以下有趣的结论：

多模态大模型并不具备xx智能，目前在BEAR基准上表现最好的模型，GPT-5，也仅仅有52%的成功率。
通常情况，闭源模型比开源模型表现好。但是部分开源模型拥有很强的潜力，如InternVL系列模型，在BEAR基准上超过了GPT-4o, Claude等模型。

Chain-of-thought在很多子能力在闭源模型上起到一致的负面作用，比如给点和空间推理能力。作者分析给点是一个直接的表达方法，模型只需要输出一个正则之后的x和y，过度的推理给模型引入不必要的干扰。同时，人们在进行空间推理的时候常常使用“直觉”，引入推理链有时会使模型引入一些错误的空间表达和位置关系，在推理最终答案的时候起到了负面作用。

细粒度错因统计

更进一步地，作者对GPT-4o的每一个子能力都进行了错因统计，分析显示了如下几个有趣的发现：

模型视觉全能能力不足是多个类别的主要瓶颈。具体表现为模型无法细致进行language grounding, 无法判断轨迹走向，无法理解图片中发生的动作。
模型3D能力不足主要体现在无法判断第一人称下的方向（左右关系），并且常常搞混相机在连续帧之间的移动走向。
对于长程推理，与高层规划(planning)相比，底层感知和空间推理仍然是主要瓶颈，错误占比高达88%。

BEAR智能体设计全面提升大模型的xx能力基于上面的发现，作者团队意识到，增强模型的视觉能力，可以全面提高模型的xx推理能力。在多模态领域，已经有一些工作通过画辅助线和教会模型使用工具用来求解数学问题。受这样工作的启发，作者开发了BEAR-Agent，这是一个可对话的多模态智能体，主要通过提供工具和做辅助线的方式增强模型的视觉推理能力，进而提升模型的xx推理能力。作者选取了表现最好的开源模型和闭源模型，InternVL3-14B和GPT-5，BEAR-Agent可以显著提高他们在BEAR上的performance。

仿真测试进一步地，作者基于Maniskill用Franka-panda搭建了桌面的操作环境，并且测试了3类任务，共12个语言指令。我们的实验结果表明，BEAR-Agent提升了20.17% MOKA在桌面操作环境上的表现，这表示着BEAR-Agent对Embodied Agent的潜力。

本篇文章重点对多模态大模型在xx推理的多个任务上进行评测和对失败进行归因分析，并且提供了详细的失败测评，并且设计Agent算法进行改进。作者希望分析结果有利于多模态大模型和xx智能在未来的迭代。非常欢迎感兴趣的老师同学们联系作者团队进行进一步交流！

....

#GPT 正式下海！开放成人内容。。

鸭纵横科技数码圈多年，也是悟到了一句话——搞颜色才是第一生产力！

OpenAI CEO山姆·奥特曼在最近宣布:在12月，随着我们更全面地推行年龄限制，并作为我们“像对待成年人一样对待成年用户”原则的一部分，我们将允许更多内容，例如针对经过验证的成年人的色情内容。

这次OpenAI（ChatGPT的开发者）的进一步Open，倒也不是很突然。

在其此前发布的模型规格中就曾提到过：为了最大程度地利用我们的用户自由，只有涉及未成年人的性内容被认为是禁止的。

那怎么禁止未成年用ChatGPT生成这些内容呢？

图片来源：OpenAI

被网友翻译成人话就是——ChatGPT这下可以正大光明的“搞颜色”了。

不少试用过的老司机表示，开放之后的ChatGPT实在是太上头了，建议加个防沉迷模式。

但是！那时候的ChatGPT并不算是彻底放开了色情内容……

至少从官方给出的范例来看，属于是可以擦边但不能详细描述。

更多的是为了可以在医学、教育、艺术等方面有所突破，而色情内容的解禁可能只是顺带手的事……

不过也有网友表示，这或许是ChatGPT在试图挽尊。

如果说之前GPT还在犹豫，这次山姆·奥特曼明确表示要一定程度的开放“情色内容”，就真的是做好下海的打算了……

曾经的ChatGPT：我来帮助你承担世界的重担！

现在的ChatGPT：我下海了！请大家多多来捧场！

GPT这次步入成人版，也有被市场给逼着前进一步的味道。

就比如马斯克的Grok里的SuperGrok付费订阅服务中，就提供了一个叫Ani的AI同伴。

是一个有金色双马尾、哥特风礼裙的美女，会以一个3D/动漫风呈现、可语音/表情互动。

自带“好感度”玩法，与它聊天会解锁不同反应与动画。当好感度达到一定程度，甚至可以解锁传说中的“成人模式”。

在刚推出的时候，一时间成了互联网全民女友。

据Appfigures称，2024年AI应用全年消费者支出已超14亿美元、下载量突破10亿次，AI陪伴由“次级品类”跃升为增长引擎之一。

在2025年截至7月，AI陪伴应用已贡献2.21亿美元消费，比2024年同期增长显著，头部10%拿走近九成收入。

多家机构预计2030年AI陪伴将迈向千亿美元级市场。

当然，陪伴不等于必须要有成人内容。

就像有人问奥特曼的那样“为什么年龄门槛总是指向色情内容?我只是想被当成成年人而不是小孩一样对待，但这并不意味着我想要被激活变态模式。”

好在GPT虽然要出成人模式，但还是懂得克制的。

....

#Thinking Machines Lab博客提出在策略蒸馏

Qwen被cue 38次

刚刚，不发论文、爱发博客的 Thinking Machines Lab （以下简称 TML）再次更新，发布了一篇题为《在策略蒸馏》的博客。

在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

该公司 CEO Mira Murati 表示，这种方法可用于小模型，使其具备强大的领域性能和持续学习能力。

值得注意的是，在这篇新博客中，TML 明确表示这项新成果受到了 Qwen 团队研究的启发，并且其实验过程中也大量用到了 Qwen3 系列模型。事实上，在原英文博客中，「Qwen」这个关键词一共出现了 38 次之多！比小米 17 系列发布会雷总提到「苹果」的 37 次还多一次。

作为一家明星创业公司，TML 的更新也吸引了广泛关注。有人总结其优势：

更是有网友盛赞，TML 才是真 Open AI。

博客地址：https://thinkingmachines.ai/blog/on-policy-distillation/

这篇博客的主要作者是 Thinking Machines Lab 研究者 Kevin Lu。他之前曾在 OpenAI 工作，领导了 4o-mini 的发布，并参与过 GPT-5 series、GPT-oss、o3 & o4-mini、4.1-nano & 4.1-mini、o1-mini、o3-mini 等模型的研发工作。

下面我们就来详细看看这篇博客的内容。

大型语言模型（LLM）能够在特定领域展现出专家级的水平。这是几种能力共同作用的结果，包括：对输入的感知、知识检索、规划选择和可靠执行。

要实现这一点，需要一系列的训练方法。我们可以将其大致分为三个阶段：

预训练（Pre-training）：教授通用能力，例如语言使用、宽泛的推理和世界知识。
中训练（Mid-training）：传授领域知识，例如代码、医疗数据库或公司内部文件。
后训练（Post-training）：引导出目标行为，例如遵循指令、解决数学问题或聊天。

在特定专业领域，经过强化训练的小型模型，其表现往往优于那些大型的通用模型。使用小型模型有很多好处：

出于隐私或安全考虑，它们可以进行本地部署。
它们可以更轻松地持续训练和更新。
它们还能节省推理成本。

想要利用这些优势，就需要为训练的后续阶段选择正确的方法。

后训练「学生」模型的方法可以分为两种：

在策略（On-policy）训练：从学生模型自身采样轨迹（rollouts），并为这些轨迹分配某种奖励。
离策略（Off-policy）训练：依赖于某个外部来源的目标输出，学生模型需要学习模仿这些输出。

例如，我们可能希望训练一个紧凑模型来解决如下的数学问题：

我们可以通过强化学习（RL）来进行在策略训练。具体做法是根据学生模型的每个轨迹是否解决了问题来为其评分。这个评分可以由人工完成，也可以由一个能可靠给出正确答案的「教师」模型来完成。

在策略训练的优势在于，学生通过在自己的样本上训练，能更直接地学会避免错误。

但 RL 有一个主要缺点：它提供的反馈非常稀疏（sparse feedback）。无论使用多少 token，它在每个训练回合（episode）中教授的比特数是固定的。

在我们上面的例子中，学生只知道「21」是错误答案，并更新模型以避免产生这个轨迹。但它并没有学到究竟错在哪里 —— 是搞错了运算顺序，还是算术本身出了错。这种反馈的稀疏性使得 RL 在许多应用中效率低下。

离策略训练通常通过监督微调（SFT）来完成，即在一组精心策划的、针对特定任务的有标注示例上进行训练。这些有标注示例的来源可以是一个在当前任务上表现出色的教师模型。

我们可以使用一种称为蒸馏（distillation）的机制：训练学生模型来匹配教师模型的输出分布。我们在教师的轨迹上进行训练，这些轨迹是生成的 token 的完整序列，包括中间的思考步骤。

在每一步，我们既可以使用教师完整的「下一个 token 分布」（常被称为「logit 蒸馏」），也可以只采样给定的序列。实践证明，采样序列提供了对教师分布的无偏估计，并能达到相同的目标。学生模型会根据自己生成该 token 的概率有多低，来相应地更新对序列中每个 token 的学习（在下例中用深色表示）：

事实证明，蒸馏大型教师模型，在训练小型模型方面非常有效，使其能够：

遵循指令
进行数学和科学推理
从医疗笔记中提取临床信息
以及参与多轮聊天对话

用于这些应用和其他应用的蒸馏数据集通常是开源和公开发布的。

离策略训练的缺点是，学生是在教师经常遇到的上下文中学习，而不是在学生自己将来会经常遇到的上下文中学习。

这可能会导致复合错误（compounding error）：如果学生早期犯了一个教师从未犯过的错误，它会发现自己越来越偏离在训练中观察到的状态。

当我们关心学生在长序列上的表现时，这个问题变得尤为突出。为了避免这种偏离，学生必须学会从自己的错误中恢复。

离策略蒸馏观察到的另一个问题是，学生可以学会模仿教师的风格和自信，但不一定能学会其事实的准确性。

打个比方：如果你在学习国际象棋，在策略 RL 就好比在没有教练指导的情况下自己下棋。赢棋或输棋的反馈与你自己的下法直接相关，但每局只收到一次反馈，而且不会告诉你哪些棋步对结果贡献最大。离策略蒸馏则类似于观看一位特级大师下棋 —— 你观察到的是非常高超的棋步，但这些棋步是在新手玩家很少会遇到的棋局状态下走出的。

我们希望能将 RL 的在策略相关性与蒸馏的密集奖励信号结合起来。

对于学习国际象棋来说，这就好比有一位老师来为你自己的每一步棋打分，从「大错特错」到「妙不可言」。对于 LLM 的后训练来说，这就是在策略蒸馏（on-policy distillation）。

在策略蒸馏 —— 集两者之长

在策略蒸馏的核心思想是：从学生模型中采样轨迹，并使用一个高性能的教师模型来为每个轨迹的每一个 token 评分。

回到我们上面的数学例子，在策略蒸馏会给解题的每一步打分，惩罚那些导致学生得出错误答案的错误步骤，同时强化那些执行正确的步骤。

在这篇文章中，我们探讨了在策略蒸馏在以下任务上的应用：

1. 训练模型进行数学推理。

2. 训练一个兼具领域知识和指令遵循能力的助手模型。

我们在已经具备预训练和中训练基础能力的模型上应用在策略蒸馏。我们发现，这是一种廉价而强大的后训练方法，它成功将在策略训练的优势和密集奖励信号结合到了一起。

我们的在策略蒸馏工作借鉴了 DAGGER（Ross et al, 2010），这是一种迭代式的 SFT 算法，它包含了教师对学生访问过的状态的评估。

它也类似于过程奖励建模（Lightman et al, 2023），这是一种 RL 方法，会对学生模型思维链中的每一步都进行评分。

我们扩展了 Agarwal et al.（2023）和 Qwen3 团队（2025）之前的在策略蒸馏工作。使用 Tinker 训练 API，我们复刻了 Qwen3 的成果，即通过在策略蒸馏在推理基准上实现了同等性能，而成本仅为 RL 的一小部分。

实现

你可以在这个 Tinker cookbook 中跟着学习实现的每一步：

https://github.com/thinking-machines-lab/tinker-cookbook/tree/main/tinker_cookbook/recipes/distillation

损失函数：反向 KL

在策略蒸馏可以使用多种损失函数来为学生的轨迹评分。为简单起见，我们选择逐 token 的反向 KL（reverse KL）—— 即在给定相同先前轨迹的条件下，学生（π_θ）和教师（π_teacher）在每个 token 上的分布之间的散度：

我们的奖励函数会最小化反向 KL，这会促使学生在自己所处的每种状态下都去近似教师的行为。当学生的行为与教师完全一致时，反向 KL 为零。为简单起见，我们使用的折扣因子为零：在任何给定的时间步，学生只优化眼前的下一个 token，不考虑未来的 token。

反向 KL 与 RL 有着天然的协同作用，RL 通常优化由奖励模型引导的某种序列级反向 KL。然而，与实践中的大多数奖励模型不同，反向 KL 是「不可破解的」（unhackable），因为从教师模型的角度来看，低 KL 总是对应着高概率的期望行为。反向 KL 的另一个有用特性是它是「寻找众数（mode seeking）」的 —— 它学习一种特定行为（教师的行为），而不是将其分布分散在几个次优选项上。

这种方法可节省大量计算资源。因为它不需要等待一个轨迹完成采样才能计算奖励，所以我们可以使用更短或部分的轨迹进行训练。查询教师的对数概率也只需要大型模型进行一次前向传播，而轨迹则是由更小、更廉价的学生模型生成的。

我们也不需要单独的奖励或标注模型。将基于蒸馏的逐 token 奖励与序列级的环境奖励结合起来可能会有好处；这是未来一个有趣的潜在研究领域。

图解

下面我们来看一个真实的例子，这是一个错误的学生轨迹，由教师模型进行评分。这个例子来自 SimpleBench，它要求模型做出一个关键观察：问题的前提很重要。正确答案是「B. 0」，因为冰块在煎锅里会融化。而学生模型（Qwen3-4B-Instruct-2507）错误地将其视为一个纯粹的数学问题，没有考虑物理背景。

颜色越深，代表该 token 受到教师模型（Qwen3-235B-A22B-Instruct-2507）的惩罚越高（教师模型正确解决了这个问题）。

我们看到，它惩罚了那些引导学生误入歧途的短语的起始 token，这直观上对应了引导推理的重要「分叉 token」（forking tokens）。最终答案（虽然是错的）并没有受到惩罚 —— 因为在给定前面所有序列的条件下，这个答案是完全可预测的。

伪代码

我们在 Tinker 的 RL 脚本之上实现了在策略蒸馏，该脚本已经实现了采样、奖励计算和策略梯度式的训练。

地址：https://thinkingmachines.ai/blog/on-policy-distillation/(https://github.com/thinking-machines-lab/tinker-cookbook/blob/main/tinker_cookbook/rl/train.py)

初始化教师客户端：Tinker API 可以轻松地为不同模型创建不同的客户端。我们使用采样客户端，因为我们不需要通过教师模型传播对数概率。
采样轨迹：我们像在 RL 中一样从学生模型中采样轨迹。在采样期间，RL 已经计算了学生的对数概率 log π_θ(x），用作重要性采样损失的一部分。
计算奖励：我们用 compute_logprobs 函数在采样出的轨迹上查询教师客户端，它会返回教师在学生采样的 token x 上的对数概率 log π_teacher (x）。然后我们用这个来计算反向 KL。
使用 RL 进行训练：我们将逐 token 的优势（advantage）设置为负的反向 KL，并调用 RL 的重要性采样损失函数来对学生模型执行训练更新。

伪代码如下：

在下面的实验中，我们通常将在策略蒸馏应用于已经过特定领域知识中训练的模型。这种训练提高了学生生成教师分布范围内的 token 的概率，尽管这通常远不足以复刻教师的性能。通常，正如我们将在个性化示例中看到的，生成相关 token 的概率开始时为零，因为学生缺乏任何相关的领域知识。

我们将使用在策略蒸馏进行后训练，并将其与训练专家模型的其他最后关键阶段的方法进行比较。

蒸馏以获得推理能力

我们使用蒸馏来训练 Qwen3-8B-Base 模型的数学推理能力，并使用 Qwen3-32B 作为教师模型。教师（Qwen3-32B）和学生（Qwen3-8B-Base）都是目前 Tinker 上支持的模型，因此你可以使用 Tinker cookbook 复现我们的实验。

离策略蒸馏

如前所述，我们所有的实验都以离策略蒸馏（即在教师生成的示例数据集上进行监督微调）的形式作为中训练的起点。用于数学推理的数据集是 OpenThoughts-3，这是一个由 QwQ-32B（一个类似于 Qwen3-32B 的推理模型）生成的推理提示和响应的集合。

在 40 万个提示上对学生模型（Qwen3-8B-Base）进行全参数微调（full fine-tuning），在 AIME'24（一个数学问题基准测试）上获得了 60% 的分数。我们也可以使用 LoRA 进行训练，但在高容量数据集上训练时，它落后于全参数微调。在所有情况下，我们都看到性能呈对数线性增长 —— 最初的性能提升很廉价，但后期的提升成本高昂。

我们可以将在 40 万个提示上微调过的模型视为一个检查点，然后尝试各种后训练方法，将其在 AIME’24 基准上的分数从 60% 提高到 70%。

默认方法是在更多提示上进行微调，即继续离策略蒸馏的过程。根据对数线性趋势推断，我们估计模型在大约 200 万个提示上能达到 70% 的分数。这个推断需要 scaling law 持续有效而不停滞，这并不简单。

强化学习

Qwen3 技术报告称，在类似的 SFT 初始化基础上，通过 17,920 个 GPU 小时的 RL，在基准测试上达到了 67.6% 的性能。这很难与蒸馏的成本直接比较，但基于对 SFT 训练堆栈的一些合理假设，这与在 200 万个离策略蒸馏提示上训练的成本相似。

Qwen 团队还报告称，使用在策略蒸馏，能以 RL 成本的十分之一，在 AIME’24 上达到了 74.4% 的更高分数。这也启发了我们的工作。

在策略蒸馏

作为替代方案，我们运行了在策略蒸馏。从 40 万 SFT 检查点开始，在策略蒸馏在大约 150 个步骤内就达到了 AIME’24 70% 的成绩。

跨方法比较计算成本并非易事。下面，我们用 FLOPs（浮点运算次数）来计算成本。

我们发现，当 SFT 数据集是现成的（如我们的 OpenThoughts-3 示例）或在多次训练中被摊销时，基线成本降低了 9 倍。

然而，我们经常希望在一个没有现成离策略蒸馏数据集的新任务上训练一个小模型。如果我们将教师模型的全部成本（即包括从教师模型采样的额外成本）计算在离策略蒸馏中，那么总成本可降低约 30 倍。

用于个性化的蒸馏

除了将小型模型训练到在通用任务上表现出色之外，蒸馏的另一个用例是个性化。例子包括在对话中遵循特定的语气和输出格式，或者像工具使用和成本预算这样的能力。我们经常希望在传授新领域知识的同时训练这种行为。

同时训练这两者通常很困难，轻量级微调（如 LoRA）往往不足以实现这一目标，因此需要更大规模的中训练。在掌握新知识的基础上学习后训练行为，需要一个复杂的后训练堆栈，通常由专有数据和奖励模型组成。虽然前沿实验室可以做到这一点，但其他从业者要复刻可能很困难或成本高昂。

在本节中，我们展示了在策略蒸馏可以有效地用于后训练专业化行为。这种方法也适用于持续学习或「测试时训练」：即在模型部署后更新它们，而不会导致基础性能下降。我们使用一个在公司内部文档上进行中训练的模型作为应用示例。

训练一个内部助手

定制模型的一个常见目标是充当助手：在某个领域拥有专家知识，并且具有可靠的助手式行为。我们可能需要对这两者进行单独训练，尤其是当专业领域知识无法仅从预训练数据中学到，或者学习它会干扰行为时。

我们的例子是一个公司内部助手，我们有两个期望：

1. 模型对该领域（公司文档）知识渊博。预训练模型没有见过任何公司内部文档，因此无论模型规模多大，都只能猜测。我们将使用内部知识召回评估（「内部 QA」）来衡量这一点。

2. 模型表现出强大的后训练行为，即遵循指令。我们将使用常用的 IF-eval 来衡量这一点。

训练新知识会降低已学到的行为

我们将从 Qwen3-8B（而不是基础模型）开始。Qwen3-8B 已经通过 RL 进行了后训练，掌握了作为助手有用的技能，如指令遵循和推理。先前的研究表明，这种强化学习只训练了原始模型的一小部分子网络，因此当网络在大量数据上进一步训练时，可能会变得很脆弱。我们研究了这种情况发生的程度，以及如何恢复所需的行为。

为了减少这种灾难性遗忘（catastrophic forgetting），中训练中一种常见的做法是混入来自模型原始预训练分布的「背景数据」。

在这种情况下，我们无法访问 Qwen3 的预训练分布。因此，我们考虑一个更强、成本更高的基线：我们获取 Tulu3 提示（一个广泛的聊天和指令遵循数据集），并使用 Qwen3-8B 重新采样它们，以充当聊天背景数据。

然后，我们在内部文档和聊天数据的不同混合比例上微调 Qwen3-8B。提高文档数据比例会直接提升模型的知识水平。然而，尽管混入至少 30% 的聊天数据有助于保留大部分指令遵循能力，但没有任何一种权重配比能维持在 IF-eval 上的原始性能。

对于任何给定的混合比例，我们都观察到 IF-eval 性能在微调过程中下降。

另一种常用的方法是使用 LoRA 来约束参数更新，从而减少灾难性遗忘的可能性。然而，这种方法仍然不足以保留 IF-eval，而且 LoRA 学到的知识也更少。

在策略蒸馏恢复后训练行为

接下来，我们试图在对内部文档进行微调后，恢复指令遵循行为。这种行为最初是用 RL 训练的，成本高昂，而且正如我们所见，很脆弱。

取而代之的是，我们在 Tulu3 提示上，使用模型的早期版本 Qwen3-8B 作为教师，来进行在策略蒸馏。请注意，这个训练阶段与内部文档数据无关，其唯一目的是恢复指令遵循能力。

使用模型的早期版本作为教师来「重新唤起」在微调过程中丢失的能力，这使得在策略蒸馏在持续学习（continuous learning）方面非常有前景。我们可以交替进行「在新数据上微调」和「蒸馏以恢复行为」这两个阶段，使我们的模型能够随着时间的推移学习并保持知识的最新状态。

在 70-30 混合的内部文档数据和聊天数据上微调后，在策略蒸馏几乎完全恢复了在 IF-eval 上的性能，且没有损失任何知识；我们还观察到聊天能力和模型在内部 QA 评估中的「知识」性能之间存在一些正向迁移。

从本质上讲，我们将语言模型本身视为一个奖励模型，高概率的行为会受到奖励。这与逆向 RL（inverse RL）有关：高概率的行为对应于假定的潜在偏好模型中的有利奖励。任何经过指令调优的开源权重模型都可以在这个意义上用作奖励模型；我们只需要能访问 compute_logprobs 函数。

讨论

密集监督可极大提高计算效率

强化学习和在策略蒸馏都通过反向 KL 进行学习，修剪基础策略中存在的动作空间。区别在于奖励的密度。

在 LoRA Without Regret 中，我们提出了信息论的观点，即强化学习每个回合只教授 O (1）的比特。相比之下，蒸馏每个回合教授 O (N）比特，其中 N 是 token 的数量。通过更密集的奖励，我们到底能获得多少训练效率的提升？

我们做了一个实验来直接比较两者：

从 Qwen3-8B-Base（没有额外的 SFT）开始。
在 DeepMath 上运行 RL。我们使用 128 的 LoRA rank。生成的模型是蒸馏的教师。
从 RL 训练的模型（2）在策略蒸馏回基础模型（1）。

从相同的初始化开始，在策略蒸馏学习 RL 训练的策略所需的梯度步数大约少 7-10 倍，这对应于 50-100 倍的计算效率提升。

我们看到，蒸馏达到教师性能水平的速度比 RL 快了大约 7-10 倍。反向 KL 下降到接近零，AIME 分数在 10 个梯度步内就得以恢复，而 RL 则需要 70 步才能达到该水平。

蒸馏可以有效地重用训练数据以提高数据效率

对于从业者来说，收集大量的训练提示可能既困难又耗时。因此，我们希望能够在训练中多次重用提示。

使用 RL 时，在同一个提示上训练多个轮次（epochs）常常导致对最终答案的简单记忆。

相比之下，在策略蒸馏学习的是近似教师的完整分布，而不是记忆单个答案。这使我们能够用同一个提示训练多个样本。

我们重复了上述在数学上训练 Qwen3-8B-Base 的实验，但这次只使用数据集中随机选择的一个提示。我们在这个提示上连续训练了 20 步。尽管我们只在一个提示上训练，但我们确实达到了与教师模型相当的性能。

RL 在语义策略空间中搜索

我们已经看到，在策略蒸馏可以用少得多的训练步骤来复刻 RL 提供的学习效果。

一种解释是，与预训练不同，RL 并未在梯度步骤本身上花费大量计算。我们应该认为 RL 将其大部分计算用在了搜索（search）上 —— 即推出一个策略并分配功劳 —— 而不是进行更新。

预训练通过随机梯度下降探索高维参数空间。预训练需要海量信息，并且非常难以蒸馏。

相比之下，我们应该认为 RL 是在探索语义策略（semantic strategies）的空间。RL 不是在参数空间中探索，而是靠运气「偶然」发现新策略 —— 它只是从它已有的权重集合中随机抽样。

一旦找到了一个好的策略，蒸馏就成了学习它的捷径：在策略蒸馏不需要对 RL 课程中的中间策略进行建模，而只需要学习最终的策略。

打个比方：在科学研究中，我们花费大量时间和资源来寻找答案和探索新思想。一旦发现一个结果，用自然语言将其教给别人就简单得多。相比之下，像运动这样的直觉性身体技能，就很难教给别人，因为这些知识存在于一种天生的语言中（例如，肌肉记忆），只有我们自己才能轻易理解。运动只能通过反复练习来学习。

作为持续学习工具的在策略学习

在关于个性化的部分，我们探讨了在策略蒸馏将专业训练行为重新引入模型的能力。这可以推广到更广泛的持续学习（continual learning）任务，这些任务要求在不降低先前能力的情况下获取新知识。

先前的工作发现，在策略学习（RL）比较少地遗忘。然而，RL 只能塑造行为 —— 它不能很好地教授新知识，因此不足以用于持续学习。

在上一节中，我们看到 SFT（包括离策略蒸馏）在支持持续学习方面是失败的，因为它会降低行为。

我们更深入地研究了这个问题。当我们在模型自己的样本数据集上运行 SFT 时会发生什么？我们看到，任何大于零的实用学习率都会导致指令遵循评估的性能下降！

一个可能的解释是，虽然 KL 散度在期望上为 0，但每个有限的批次（batch）在实践中都会表现出略微不同的分布。在这些有限批次上训练会导致非零的梯度更新，这会使更新后的模型策略偏离其原始状态。

在策略蒸馏始终保持在在策略状态，并且由于教师保持不变，学生会收敛于教师的期望行为，而不会像 SFT 那样在自蒸馏设置中出现性能衰退。这使得在策略蒸馏成为一种非常有前景的持续学习工具。

总结

我们探讨了在策略蒸馏在训练小型模型进行数学推理或持续学习助手等方面的应用。我们将在策略蒸馏与其他两种后训练方法进行了比较：离策略蒸馏和在策略 RL。

我们发现，在策略蒸馏结合了两者的优点：在策略训练的可靠性能以及密集奖励信号带来的成本效益。

后训练是达到前沿模型能力的关键部分。通过利用来自学生的在策略采样和来自教师的密集监督，在策略蒸馏方案能够以前沿高计算量 RL 运行成本的一小部分，达到这些能力。

我们的实现可以在 Tinker cookbook 中找到。我们的工作探索了在策略蒸馏的简单直接的实例化，以清晰地展示其优势。我们希望继续研究蒸馏的新应用、改进教师监督的新方法，以及提高数据效率和持续学习的方法。

在 Thinking Machines，我们的使命是为人们提供兼具前沿性能、适应性和个性化的 AI 模型。在策略蒸馏是实现这一目标的有力工具。

参考链接

https://x.com/thinkymachines/status/1982856272023302322

https://x.com/miramurati/status/1982856564970254772

....

#最新一篇长达76页的Agentic AI综述

Agentic AI正从外部流水线转向模型原生，推理、记忆与行动等能力被内化到模型策略中，借助强化学习把感知与行动打通，让静态模型变成可从环境互动中学习的目标驱动体。LLM + RL + Task 正在成为现代AI的“方法论奇点”，通过预训练→后训练→推理的循环，把算力持续转化为智能。未来不仅是更高自治，更是模型与环境深度耦合/共生；这种范式迁移也意味着从“构建会用智力的系统”走向“通过经验自进化的智能”。

论文标题：Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI
论文链接：https://arxiv.org/abs/2510.16720v1

问题背景

生成式AI进步迅猛，但多为“反应式输出”，缺乏面向目标的长期推理与环境交互；为迈向自主行动，研究焦点转到“智能体AI（agentic AI）”，其三大核心能力是规划、工具使用、记忆。

早期系统是流水线范式（Pipeline-based），这三大能力被放在外部编排里：规划依赖符号规划或CoT/ToT提示，工具使用依赖函数调用与ReAct式思维-行动回路，记忆依赖会话摘要与RAG；因此模型是被动组件，系统脆弱且难以应对非预期情境。

新范式模型原生则强调通过端到端训练把规划、工具使用与记忆内化进模型参数，让LLM成为主动决策者。这种范式转变的核心驱动力正是大规模强化学习（RL）用于LLM训练，使得从“SFT/偏好优化”转向结果驱动的RL（如GRPO、DAPO等），从而形成了统一训练图景“LLM + RL + Task”。目前，智能体应用沿着两条主要路线发展：(1)Deep Research智能体，它充当“大脑”，擅长复杂的推理和分析；(2)GUI智能体，它充当“眼睛和手”，模拟人类与图形环境的交互。

面向LLM 的 RL

因程序化数据稀缺与 Out-of-Distribution (OOD) 脆弱，必须用结果驱动的 RL把规划等能力从提示诱导转为参数内化；借助 LLM 先验与语言统一接口，RL 成为训练模型原生代理的可行且通用的“LLM + RL + Task”范式。

1. 为什么必须用 RL

CoT 等流水线只是把“步骤”塞进提示里，诱导模型模仿程序化模式，但并未让参数学会过程本身，易在分布外场景失效。

要把“规划”等能力内化进模型，需要直接优化参数：将答案视作对所有潜在推理轨迹的边缘化，目标变为同时学到奖励和动作；SFT 受制于( q,R,a )轨迹数据稀缺与昂贵，RL 则用结果驱动的奖励直接优化整条推理轨迹。

相比 SFT，RL 的两大优势：动态探索式采样与相对价值学习，把模型从“被动模仿者”变成“主动探索者”。

2. 为什么可行

预训练 LLM 自带世界知识与结构先验，可进行先验引导的探索，显著提高样本效率；形式化为在知识条件下优化期望回报。

语言介面把状态、动作、奖励统一到文本/符号空间：动作可为文本、工具调用或 GUI 操作，奖励可为事实正确性、偏好或可编程验证，从而让 RL 跨任务泛化，成为内化代理能力的通用机制。

3. 统一范式与算法演进

一方面，早期 RLHF擅长单轮对齐，但不适合长程、多轮与稀疏奖励；后续出现 GRPO、DAPO 等结果驱动 RL以提升长程训练稳定性与效率；另一方面，以基础模型提供先验，学习算法（RL/偏好优化）在任务环境中通过交互与奖励精炼能力。

核心能力：规划

流水线范式两类路线：

符号规划系（LLM+P/LLM+PDDL）：LLM 生成PDDL等形式化描述，交由外部规划器求解；闭域强、跨域与鲁棒性受限。 Beyond Pipelines A Survey of th…
提示工程系（CoT/ToT 等）：将规划当作序列生成；分线性（逐步CoT）与非线性（ToT、LLM+MCTS、RAP等）两类，后者引入搜索与评估但计算开销大、依赖外部评估质量

把规划视为从初始状态到目标状态的自动化推理与行动序列搜索；传统符号规划可解释但重建模、跨域差。提示/管线对设计高度敏感、在复杂任务下不稳定、Token/算力成本高，难以充分发挥模型潜能。

模型原生范式通过监督学习与强化学习把规划能力直接内化到参数中，摆脱外部搜索器/评估器，提升开放环境下的灵活性与稳健性。

监督学习：依赖高质量过程数据；因程序化数据稀缺，主攻两条路——数据合成（多路径采样、MCTS/过程奖励等）与数据蒸馏（强推理教师→学生），以低人工成本扩充高质长链路推理数据。
强化学习：通过结果驱动的轨迹奖励直接优化规划策略，弥补离线监督不足。

总得来说，模型原生规划实现了两次关键迁移，一种是训练方式从SFT转向RL，以缓解高质量过程数据稀缺与成本高的问题；另一种是，在RL内部从“过程奖励”转向“结果奖励”，并常结合格式等规则型奖励以稳定优化。这一演进不只发生在语言规划上，多模态也从外接视觉工具/提示链过渡到端到端训练，实现“所见即所思”的原生感知-推理。下图表展示了两种范式的代表性研究：

核心能力：工具使用

工具使用包括两层：1. 行动层面的计划：何时、按什么顺序调用哪些工具，并随反馈调整）；2. 执行：生成语法正确的调用命令并与环境交互。

早期系统工作流把模型嵌在固定节点，虽然可预测但缺乏灵活性，而提示法把决策逻辑写进提示里，分为先计划后执行与计划-执行交替，后者虽然更适应动态反馈，但计算开销与依赖评估质量更高。

模型原生迁移把工具使用的决策内化到参数中，沿“计划/执行”两层形成两类训练路线：1.模块化训练：只优化小型可训练规划器，执行由模板/冻结模型承担，以减轻信用分配噪声、提升样本效率与稳定性；2. 端到端训练：统一目标下同时学计划与执行），其核心难点在跨步信用分配（轨迹级 vs. 步级）与环境噪声（静态/模拟 vs. 动态/真实）。

工具使用从外部编排的流水线走向模型原生，不再依赖预设流程，而是把“何时/如何用哪个工具”的计划层与“正确调用并读懂反馈”的执行层一起内化为模型的多目标决策问题。然而，目前还存在两大挑战待解决，1. 信用分配：如何把最终结果可靠归因到长动作序列中的具体决策步；2. 环境噪声：工具超时、返回不一致、内容动态等使训练不稳定。

通过回归“模块化训练”，将规划器与执行器解耦，只优化规划器，以隔离执行噪声、提升样本效率与稳定性。一方面，端到端细化奖励，将轨迹级转向步/轮级信用分配，使学习信号更对齐有效动作、稳定训练。另一方面，训练环境由静态/模拟环境走向动态真实环境，可以缩小“仿真到现实”差距。下表展示了工具使用的代表型代理研究：

核心能力：记忆

记忆从单一外部模块提升为贯穿任务全周期的能力，文中提出记忆是“面向行动的证据治理”，将流程拆为写入/存储、管理/压缩、检索、利用四职能。

短期记忆（会话内）：流水线范式通过滑动窗口、压缩/摘要（证据卡+可回溯锚点）、RAG（会话感知、多路径重排），长窗与会话RAG常互补使用以控噪。模型原生范式则通过位置编码外推+长序列合成/课程训练（针堆检索、跨文档推理）+注意力优化，把长上下文从工程管线过渡到端到端能力。
长期记忆（跨会话）：一种以外部库为载体，使用混合索引、重排、去重与一致性检查，强调可追溯；关键在精确检索与可靠使用。另一种以参数为载体：持续预训练/蒸馏做全局内化；或做定点编辑与轻量注入（适配器/LoRA/线性状态层），在延迟与可解释性间权衡。

总的来说，记忆从外部模块转向“面向行动的证据治理”的模型原生能力，负责保存状态、检索与将证据注入推理流程，短期记忆的转变尤为明显。而当前瓶颈在长序列数据合成与课程设计，未来应显式训练检索、压缩、校验等操作，外部向量库等将退居后台合规/持久存储。许多基础技术先扩了短期记忆能力，从而在工程上RAG成了默认基线。当前的趋势是把已验证的管线功能逐步内化，并推动短期—长期记忆的统一、检索与生成的联合训练与个性化治理。下表总结了短期记忆和长期记忆的典型方法：

应用

未来方向

总结

Agentic AI的演变反映了智能本身如何被构想、训练和部署的更深层次的转变。从基于管道的系统（推理、记忆和行动由外部支架协调）到将这些能力内化的本地范式模型，我们正在见证Agentic AI的根本性重新定义。强化学习作为经验的引擎，连接感知和行动，将静态模型转变为能够从与环境的交互中学习的自适应、目标导向的实体。

通过这项调查，我们回顾了计划、工具使用和记忆是如何逐渐被吸收到模型的内在策略中的。统一原则𝐿𝐿𝑀 +𝑅𝐿+𝑇𝑎𝑠𝑘 正在成为现代人工智能的方法论奇点。该框架通过预训练、后训练和推理的循环将计算转化为智能。

最终，Agentic AI的发展轨迹不仅仅是朝着更大的自主性发展，而是朝着模型与其所处环境之间更深入的综合发展。因此，从外部管道到模型原生的范式转变标志着从构建使用智能的系统到增长智能的系统的转变。人工智能的下一个时代将不再由我们如何设计代理来定义，而更多地由我们如何使它们通过经验学习、协作和进化来定义。

....

#Seed-ASR

大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

2024 火山引擎 AI 创新巡展上海站于近日举办，活动展示了豆包大模型在综合评分、语音识别等方面的效果提升，还发布了对话式 AI 实时交互解决方案。豆包大模型团队成果 Seed-ASR ，提供了语音识别能力支持。

Seed-ASR 是一款 ASR（自动语音识别）成果。它能准确转录各种语音信号，识别不同语言、方言、口音。对于人名、生词，Seed-ASR 也能结合文本语音等上下文，实现更准确转录。该成果目前已被集成进豆包 APP 、火山引擎相关服务模块中。

本文介绍了 Seed-ASR 技术亮点 —— 高精度识别、大容量模型、支持多种语言、上下文感知、分阶段训练方法。相关同学还分享了立项动机、研发历程及总结思考，展望了大模型 Scaling Laws 对 ASR 技术的推动和影响。

8 月 21 日，2024 火山引擎 AI 创新巡展﹒上海站带来了豆包大模型最新进展。

公开及内部测评集显示，最新版本豆包大模型对比 5 月 15 日发布版本综合能力提升 20.3% ，其中，角色扮演能力提升 38.3% ，语言理解能力提升 33.3% ，数学能力提升 13.5% 。根据 QuestMobile 报告，基于豆包大模型打造的豆包 APP 月活用户数在上半年已达 2752 万，为同类 APP 第一，是第二名的 2.43 倍。

语音能力是本次活动的发布重点。其中，语音识别和语音合成模型进一步升级，对话式 AI 实时交互功能也最新上线。

具体来说，豆包﹒语音合成模型升级了流式语音合成能力，能够实时响应、精准断句，支持“边想边说”。豆包﹒语音识别模型，可基于更强上下文感知能力，推理得出更准确的识别结果，并支持一个模型识别普通话和粤语、上海话、四川话、西安话、闽南语等多种中国方言。

基于语音合成、语音识别等成果，火山引擎整合了云服务的实时音视频技术，使 AI 语音交互能像人类说话一样打断和插话，端到端延时可低至 1 秒以内。即使在弱网环境，丢包 80% 依然可保持清晰流畅。

上述发布中，语音合成能力依托于 Seed-TTS 。而语音识别能力依托于豆包大模型团队另一成果—— Seed-ASR 。

Seed-ASR 能力展示

Seed-ASR 基于大语言模型，可将各种语音转化为文本信息，使机器能“听懂”用户说话，“聪明”地识别各类信息。

通过下面几个 Demo ，可感知其能力。

（1）基于人名的上下文推理

给到历史人物介绍，模型能从语音中识别相关信息。

（2）基于专业名词的上下文推理

模型能根据用户对字幕的编辑历史，关联并自动识别后续语音中的专业名词——比如滑雪中的“立刃”、“雪板”、“搓雪”等表达。

（3）方言识别

即便是 5 种方言夹杂的语音聊天，模型同样能够识别并展示出较为准确的结果。如果将聊天相关信息作为提示词，事先提供给模型，识别效果则会进一步提升。

Seed-ASR 已在豆包 APP 中应用，被网友用在英语会话、虚拟聊天伴侣、复刻亲友声音等多个场景。面向更多企业客户，Seed-ASR 依托火山引擎，在语音交互、内容审核、会议访谈转写、音视频字幕等场景也有落地。

目前， Seed-ASR 技术报告已经公开，在多个领域、多种语言、方言、口音综合评估集上，它比其他端到端模型表现出显著改进。

对比此前发布的大型 ASR 模型，Seed-ASR 在中英文公开测试集上，单词错误率（面向中文以单个字计算）降低 10%-40% ，展现出一定优势。

有网友在试用后表示，这个模型的表现确实超出预期，家里小朋友说话也能听懂。

技术详情及更多 Demo 展示，可通过下方链接了解：

论文标题：Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition
论文链接：https://team.doubao.com/zh/publication/seed-asr-understanding-diverse-speech-and-contexts-with-llm-based-speech-recognition?view_from=research
Demo展示：https://bytedancespeech.github.io/seedasr_tech_report/

技术亮点与原理

Seed-ASR 的立项始于 2023 年初，随着 ChatGPT 横空出世，Scaling Laws 成为显学，各领域研究者都意识到，参数量和数据量的大幅增长使得模型同时拥有强大的理解和生成能力。

此前，语音一直与 NLP 结合紧密，语音与文字的相互转换在人类大脑内本就是一项“不假思索便执行”的任务，对机器也类似。

基于上述背景，研究团队希望让 ASR 模型能够利用 LLM 丰富的知识，整体提升 ASR 识别结果的准确性，由此，开启了 Seed-ASR 的相关工作。

从技术角度看，Seed-ASR 核心亮点在于两方面：

其一，基于大模型，为 ASR 引入了上下文理解能力。

Seed-ASR 有 LLM 加持，可利用丰富的上下文理解语音信号。具体实现上，通过构建有效且多样的训练数据，团队激发了模型的语音模态，使得模型可以结合文本，捕捉语音中的相关信息，再在推理中，设计一些解码策略，以缓解上下文引入造成的幻觉及误转写问题。

上述工作使得与 AI 对话时，模型能够理解特定术语，也能在会议纪要中，“听懂”新加入参会者的人名。且沟通越多，上下文信息越多，后续转录的正确率就越高。

其二， All-in-One 理念带来强大的泛化效果。

传统 ASR 属于小模型，每个领域需要特定模型解决细分问题，另有与之配套的融合方法，脱离特定场景，表现便会下降。Seed-ASR 基于 All-in-One 思路，强大的泛化性使它能被用于各类场景，更为简洁。

除却上述两方面，Seed-ASR 还拥有识别准确率高、支持多种语言等特性，其中 CN 版支持 13 种中文方言，多语言版支持英语和其他 7 种语言，同时正在拓展支持 40 种语言。

这些能力中，高精度识别与多种语言支持能力源于 Scaling Laws 理念。模型容量扩大，更多样更广泛数据的引入，提供了模型更好的泛化性和能力涌现。正如 GPT 系列每一代的进化一样。此外，分阶段的训练方式既赋予模型高精度识别能力，也提供模型利用上下文推理的能力。

训练方法

Seed-ASR 的开发加入了分阶段训练过程，这种基于音频条件 LLM 框架被称为 AcLLM 。

整个流程包括：编码器的自监督学习（SSL）、监督微调（SFT）、上下文微调（Context SFT）、强化学习（RL）。其中，预训练的大量文本数据训练使模型存储大量知识，在后续微调中，LLM 在更高质量的任务导向数据上进一步微调，增强了上下文推理和理解任务指令的能力。RLHF 阶段中，LLM 得以与人类偏好进一步保持一致。

注：Seed-ASR 训练过程

下面具体拆解各个阶段：

音频编码器的自监督学习

该步骤使编码器能从语音中捕获丰富信息，参考了基于 BERT 的语音 SSL 框架，团队开发了一种基于一致性的模型，可在音频信号中可捕捉并存储语音信号中的全局及局部信息。团队将训练后的音频编码成称为“ LUISE ”，它是大规模无监督迭代语音编码器（Large-scale Unsupervised Iterative Speech Encoder）的英文缩写。

继承 BERT 的理念，LUISE 采用掩码语言预测的学习范式，即：先将波形提取的特征序列输入到 Token 化模块，得到每个帧的离散标签，再使用交叉熵准则对 LUISE 进行训练，损失函数仅对掩码帧进行计算，训练完成后，移除 softmax 层，用 LUISE 的 Encoder 部分进行后续有监督微调。

下面是该编码器的训练过程：

团队还利用了迭代固定分词器方法，从连续数据中提取离散标签，重复迭代过程，逐步优化了分词结果。

在选择中间层过程中，团队冻结了第一次迭代训练的编码器参数，添加映射层并利用 CTC（Connectionist Temporal Classification）算法进行贪婪搜索，从而得到词错误率结果（WER）。

下图展示了针对 LUISE 语义表示最优化层的探索实验结果，对于 20 亿参数的LUISE，第 25 层（总共 30 层）的输出展示了最佳语义表示，并在后续迭代中，用于生成离散标签。

SFT

大规模纯语音数据训练已让 LUISE 具备强大的语音表征能力，能够以 40ms 帧率输出丰富语音和语义信息的连续表征。

为了让模型能理解语音中对应文本内容，需要将编码表征的语义信息映射到 LLM 语义空间去。团队为此采用 2 种方法：

在模型结构上，引入一个转换器模块将音频编码器 LUISE 与 LLM 连接起来。当提供上下文时，模型会识别相关语音信息，结合上下文，提供准确文本，否则将语音直接转录为文本。

训练方式上，团队采用了“可学习编码器 + 可学习转化器+固定 LLM ”策略，这样可保持 LLM 丰富的语义知识和推理能力，通过编码器和转换器参数训练，使得语音中的语义信息与 LLM 的语义空间对齐。

Context SFT

Context SFT ，不止关乎语音对话中的背景信息理解，对于语音识别中的模糊信息，比如口音、发音不清、同音异义词、生僻词等理解也有很大意义。为此，团队引入了上下文感知训练以及联合波束搜索方法来增强相关能力。

首先团队使用自研的语言模型来生成语音转录有关的上下文，并构建了“上下文，语音，文本”三种元素的数据集，将其与一定比例的一般 ASR 数据混合训练，并在训练中将上下文和语音表征输入 LLM 中。

为了解决原生波束搜索的幻觉问题，团队还提出一种联合波束搜索的解码策略以缓解幻觉，找到最优得分 P(y|x,c) ，其中，y 表示预测的假设，x 是语音信息，c 是给定上下文信息，超参数 α 用于平衡解码过程中语音信息和上下文信息的权重，并且，团队还引入了一种修剪策略，过滤掉语义方面不合理的候选词。

下图展示了“有上下文”和“无上下文”转录语音的示例情况，从第二行输出结果可见，有上下文情况下，模型输出与此前出现的单词“ ceaseth ” 、 “ sufficeth ”进行了对齐。

强化学习（RL）的引入，使模型在序列建模任务中学习到相对最优的决策策略。通过构建基于 ASR 指标的奖励函数，团队将其引入 Seed-ASR 中。不仅于此，团队还将加权单词错误率（WER）作为额外奖励函数，这样可使模型更多关注关键词的错误问题。

具体到训练过程中，团队使用前一阶段训练的上下文 SFT 初始化模型参数，利用高质量数据进行数千小时的强化学习训练，为保证上下文感知能力，训练数据还包括一定比例的“上下文，语音，文本”三种元素数据。

在消融研究中，将加权 WER 作为奖励函数的模型（最后 2 行）在 3 个评估集的表现优异，最后一行训练进一步加入三种元素的数据集，其上下文能力表现得以保持。

实验结果与技术展望

下图展示了 Seed-ASR 与其他同类模型的平均单词错误率，在中文领域，Seed-ASR 对比主流模型无论是普通话在多领域的识别错误率，还是 6 个普通话测试集上，其平均错误率都低于其他模型。

面向英文表现也很好，无论面向多领域英语识别评测，还是 MLS 公共评测集，其表现同样突出。

除却客观评价外，团队还引入主观评价，选择 3 名转录员进行人工识别，将文本与 Seed-ASR 进行对比。

结果显示，在语音搜索和语音助手领域，两者旗鼓相当，而在直播、视频、会议场景，Seed-ASR（ CN 版本）表现出比人类更好的主观可理解性。

在研究测试过程中，团队还观察到，更大模型可以通过增加训练数据量级，不断降低损失值。

据团队所了解，目前尚无基于 LLM 框架的音频编码器 Scaling Laws 的研究，团队在训练阶段选取了 5 个量级的模型，通过 770 万小时无监督多领域纯语音数据训练，观察 Loss 值、单词错误率（WER）。

从下图能看出，随着模型规模提升（在横轴取 2 为底的对数值），交叉熵预训练 Loss 值与单词错误率均会降低，且预训练 Loss 值与单词错误率呈正相关关系。

为探索长语音数据在模型表现上的影响，团队还构建了一系列数据集，分别直接用长语音数据进行微调，对照组使用切分后的短语音微调，并且比对了其他 ASR 模型。

结果显示，长语音 SFT 效果更佳。团队认为，分段操作可能导致了边界信息丢失，降低识别准确率，且影响了全局上下文的一致性，进而降低了识别结果的准确性和一致性。

林同学是该项目的主要参与者之一，展望 Seed-ASR 将释放的潜力，他认为，语音内容理解作为交互入口，准确率的进一步提升将推动人机交互更为“智能化”。ASR 对于小众语言、口音、发音的更强兼容性，可促使技术进一步普惠不同文化背景或沟通障碍的小众群体。

对于技术发展的展望，林同学颇为乐观：“目前 Scaling Laws 的潜力尚未被穷尽，我们在数据和模型结构的升级工作仍收益可观，我们将继续探索”。

“务实”、“重视技术”是团队的底色

事实上，Seed-ASR 早已被应用于豆包 APP 实际场景中，从立项到上线，只历经不到半年时间。此后，模型历经不断调优，性能继续提升。

“项目推进效率非常高”，这是让林同学印象最深的事。

据他回忆，快速推进一方面得益于技术路线选取的前瞻性。Seed-ASR 的框架连续性很好，一开始选择了连续语音表示的方向，后续也没有切换大方向，使得团队少走“弯路”，还能做进一步深入研究和优化。

另一方面也源于高效的跨团队协同。

这当中，算法同学发起前期验证和技术方向规划，当模型展现出对应能力，更多同学加入进来。其中，工程同学提供了训练稳定性和推理加速方面的支持，数据同学快速支持了要素生产，评测同学构建了一套六边形的评价维度。Leader 们会身居一线，紧密跟踪前沿工作和技术推进，与各职能同学紧密沟通技术细节，以更好协调资源和指导项目推进。在大家紧密配合下，模型得以快速迭代。

“所有人都一心扑在实际效果优化上，反而在公开集上没来得及测试，导致技术报告迟迟没有公开”，林同学补充道。

最后，团队氛围也是促成项目高效推进的因素之一。

“我们团队的关键词，一个是务实，另一个是非常重视技术”，林同学说道，而正是这种氛围，促使大家更加自驱，更加积极去推进项目。

“每个同学都有机会做适合自己的事情，又能收获成就感。当看到技术实际落地，释放价值，也给同行提供新的视角，这给了我们动力把技术做得更扎实”，他认真地补充道。

截至目前，豆包大模型团队语音方向已发布 Seed-TTS 、Seed-ASR 等多项技术成果，团队希望吸引自驱、务实、有志于“用科技改变世界”的顶尖人才加入，点击阅读原文了解更多信息。

注：本文受访同学采用化名。

....

#SuperClue-V

国内首个自研MoE多模态大模型，揭秘腾讯混元多模态理解以 GPT 为代表的大型语言模型预示着数字认知空间中通用人工智能的曙光。这些模型通过处理和生成自然语言，展示了强大的理解和推理能力，已经在多个领域展现出广泛的应用前景。无论是在内容生成、自动化客服、生产力工具、AI 搜索、还是在教育和医疗等领域，大型语言模型都在不断推动技术的进步和应用的普及。然而，要推动通用人工智能向探索物理世界迈进，第一步便是解决视觉理解问题，即多模态理解大模型。多模态理解让人工智能能够像人类一样，通过多种感官获取和处理信息，从而更全面地理解和互动世界。这一领域的突破将使人工智能在机器人、自动驾驶等方面取得更大的进展，真正实现从数字世界到物理世界的跨越。

大模型从认知空间走向物理世界的发展路径

近期，腾讯混元推出了基于 MoE 架构的多模态理解大模型。该模型在架构、训练方法和数据处理方面进行了创新和深度优化，显著提升了其性能，并能支持任意长宽比及最高 7K 分辨率图片的理解。与大部分多模态模型主要在开源基准测试中进行调优不同，腾讯混元多模态模型更加注重模型的通用性、实用性和可靠性，具备丰富的多模态场景理解能力。在近期发布的中文多模态大模型 SuperCLUE-V 基准评测中（2024 年 8 月），腾讯混元斩获国内排名第一，超越了多个主流闭源模型。

方法介绍：MoE 架构

腾讯混元语言大模型，在国内率先采用混合专家模型 (MoE) 架构，模型总体性能相比上一代提升 50%，部分中文能力已追平 GPT-4o，在 “时新” 问题的回答表现上，数学、推理等能力上均有较大提升。早在今年年初，腾讯混元就将该模型应用于腾讯元宝。

腾讯混元认为，能够解决海量通用任务的 MoE 架构，也是多模态理解场景的最佳选择。MoE 能够更好地兼容更多模态和任务，确保不同模态和任务之间是互相促进而非竞争的关系。

依托腾讯混元语言大模型的能力，腾讯混元推出了基于MoE架构的多模态理解大模型，在架构、训练方法和数据处理方面进行了创新和深度优化，性能得到显著提升。这也是国内首个基于MoE架构的多模态大模型。

腾讯混元多模态模型架构示意图

简单可规模化

除了采用 MoE 架构外，腾讯混元多模态模型的设计还遵循简单、合理、可规模化的原则：

支持原生任意分辨率：与业界主流的固定分辨率或切子图方法相比，腾讯混元多模态模型能够处理原生任意分辨率的图片，实现了首个支持超过 7K 分辨率和任意长宽比（例如 16:1，见下文例子）图片理解的多模态模型。
采用简单的 MLP 适配器：相较于此前主流的 Q-former 适配器，MLP 适配器在信息传递过程中损失更小。

这种力求简单的设计，使得模型和数据更容易扩展和规模化。

SuperClue-V 榜单国内排名第一

2024 年 8 月，SuperCLUE 首次发布了多模态理解评测榜单 ——SuperClue-V。

SuperCLUE-V 基准包括基础能力和应用能力两个大方向，以开放式问题形式对多模态大模型进行评估，包含 8 个一级维度 30 个二级维度。

在此次评测中，混元多模态理解系统 hunyuan-vision 取得了 71.95 得分，仅次于 GPT-4o。在多模态应用方面，hunyuan-vision 领先于 Claude3.5-Sonnet 和 Gemini-1.5-Pro。

值得注意的是，业界此前的多模态评测多集中于英文能力，评测题目类型大多为选择题或判断题。而 SuperCLUE-V 评测更侧重于中文能力评测，关注用户的真实问题。此外，由于是首次发布，尚未出现过拟合现象。

腾讯混元图生文大模型在通用场景、图像 OCR 识别理解和中文元素理解推理等多个维度上显示了不错的性能，也体现了模型在未来应用上的潜力。

面向通用应用场景

混元多模态理解模型面向通用场景和海量应用进行了优化，积累了数千万相关问答语料，涵盖图片基础理解、内容创作、推理分析、知识问答、OCR 文档解析、学科答题等众多场景。以下是一些典型应用实例。

以下是更多典型示例：

将图片转换成文本表格：

解释一段代码：

分析账单：

描述图片内容：

做数学题：

根据图片内容，进行分析：

帮你写文案：

目前腾讯混元多模态理解大模型已在 AI 助手产品腾讯元宝上线，并通过腾讯云面向企业及个人开发者开放。

腾讯元宝地址：https://yuanbao.tencent.com/chat

https://yuanbao.tencent.com/chat

....

#Automated Design of Agentic Systems

用AI自动设计智能体，数学提分25.9%，远超手工设计

基于 ADAS 所发现的智能体的性能大大优于最先进的手工设计的基线。

基础模型 (FM) 如 GPT 和 Claude ，正在成为通用智能体的强有力支持，被越来越多的用于多种推理和规划任务。

然而，在解决问题时，需要的智能体通常是具有多个组件的复合智能体系统，而不是单片模型查询。此外，为了使智能体能够解决复杂的现实世界任务，它们通常需要访问外部工具，例如搜索引擎、代码执行和数据库查询。

因此，人们提出了许多有效的智能体系统构建块，例如思维链规划和推理、记忆结构、工具使用和自我反思。尽管这些智能体已经在各种应用中取得了显著的成功，但开发这些构建块并将它们组合成复杂的智能体系统通常需要特定领域的手动调整以及研究人员和工程师的大量努力。

然而，机器学习的历史告诉我们，手工设计的解决方案最终会被模型学习到的解决方案所取代。

本文，来自不列颠哥伦比亚大学、非营利人工智能研究机构 Vector Institute 等的研究者制定了一个新的研究领域，即智能体系统的自动化设计（ADAS，Automated Design of Agentic Systems），并提出了一种简单但有效的 ADAS 算法，名为元智能体搜索（Meta Agent Search），以证明智能体可以通过代码编程来发明新颖而强大的智能体设计。

该研究旨在自动创建强大的智能体系统设计，包括开发新的构建块并以新的方式组合它们。

实验表明，基于 ADAS 所发现的智能体的性能大大优于最先进的手工设计的基线。例如，本文设计的智能体在 DROP 的阅读理解任务中将 F1 分数提高了 13.6/100（与基线比），在 MGSM 的数学任务中将准确率提高了 14.4%。此外，在跨域迁移后，它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。

与手工设计的解决方案相比，本文算法表现出色，这说明 ADAS 在自动化智能体系统设计方面的潜力。此外，实验表明，所发现的智能体不仅在跨相似领域迁移时表现良好，而且在跨不同领域迁移时也表现出色，例如从数学到阅读理解。

论文地址：https://arxiv.org/pdf/2408.08435
项目地址：https://github.com/ShengranHu/ADAS
论文主页：https://www.shengranhu.com/ADAS/
论文标题：Automated Design of Agentic Systems

新研究领域：智能体系统的自动化设计（ADAS）

该研究提出了一个新的研究领域 —— 智能体系统的自动化设计（Automated Design of Agentic Systems，ADAS），并描述了 ADAS 算法的三个关键组成部分——搜索空间、搜索算法、评估函数。ADAS 使用搜索算法跨搜索空间来发现智能体系统。

搜索空间：搜索空间定义了哪些智能体系统可以在 ADAS 中被表征并被发现。例如，像 PromptBreeder (Fernando et al., 2024) 这样的工作仅改变智能体的文本提示，而其他组件（例如控制流）保持不变。因此，在搜索空间中，无法表征具有与预定义控制流不同控制流的智能体。

搜索算法：搜索算法定义了 ADAS 算法如何探索搜索空间。由于搜索空间通常非常大甚至无界，因此应考虑探索与利用的权衡（Sutton & Barto，2018）。理想情况下，该算法既可以快速发现高性能智能体系统，又可以避免陷入局部最优。现有方法包括使用强化学习（Zhuge et al., 2024）或迭代生成新解决方案的 FM（Fernando et al., 2024）作为搜索算法。

评估函数：根据 ADAS 算法的应用，可能需要考虑不同的优化目标，例如智能体的性能、成本、延迟或安全性。评估函数定义如何评估候选智能体的这些指标。例如，为了评估智能体在未见过的数据上的表现，一种简单的方法是计算任务验证数据的准确率。

该研究提出的简单但有效的 ADAS 算法——元智能体搜索的核心概念是指示元智能体迭代地创建有趣的新智能体，评估它们，将它们添加到智能体存储库中，并使用此存储库帮助元智能体在后续迭代中创建更有趣的新智能体。与现有的利用人类兴趣概念的开放式算法类似，该研究鼓励元智能体探索有趣的、有价值的智能体。

元智能体搜索的核心思想是采用 FM 作为搜索算法，基于不断增长的智能体存储库来迭代编程有趣的新智能体。该研究为元智能体定义了一个简单的框架（100 行代码以内），为其提供了一组基本功能，例如查询 FM 或格式化提示。

因此，元智能体只需要编写一个「前向」函数来定义一个新的智能体系统，类似于 FunSearch 中的做法（Romera-Paredes et al., 2024）。该函数接收任务信息并输出智能体对任务的响应。

如图 1 所示，元智能体搜索的核心思想是让元智能体在代码中迭代地编程新的智能体。下面显示了元智能体程序新智能体程序的主要提示，其中提示中的变量高亮显示。

实验

所有实验结果表明本文发现的智能体大大优于基线最先进的手工设计的智能体。值得注意的是，该研究发现的智能体在 DROP 阅读理解任务上比基线提高了 13.6/100（F1 分数），在 MGSM 数学任务上比基线提高了 14.4%（准确率）。此外，研究者发现的智能体在从 GPT-3.5 迁移到 GPT-4 后，在 ARC 任务上的表现比基线提高了 14%（准确率），在从 MGSM 数学任务迁移到 GSM8K 和 GSM-Hard 中的 held-out 数学任务后，准确率分别提高了 25.9% 和 13.2%。

案例研究：ARC 挑战

如图 3a 所示，元智能体搜索可以有效且逐步地发现性能优于最新手工设计的智能体。文本框中突出显示了重要的突破。

此外，图 3b 显示了发现最好的智能体，其中采用了复杂的反馈机制来更有效地细化答案。仔细观察搜索进度就会发现，这种复杂的反馈机制并不是突然出现的。

推理和问题 - 解决域

跨多个域的结果表明，元智能体搜索可以发现表现优于 SOTA 手工设计的智能体（表 1）。

泛化性以及可迁移性

研究者进一步展示了所发现智能体的可迁移性和可泛化性。

如表 2 所示，研究者观察到搜索到的智能体（searched agent）始终优于手工设计的智能体，并且差距很大。值得注意的是，研究者发现 Anthropic 最强大的模型 Claude-Sonnet 在所有测试模型中表现最佳，使基于该模型的智能体在 ARC 上实现了近 50% 的准确率。

如表 3 所示，研究者观察到元智能体搜索的性能与基线相比具有类似的优势。值得注意的是，与基线相比，本文的智能体在 GSM8K 和 GSM-Hard 上的准确率分别提高了 25.9% 和 13.2%。

更令人惊讶的是，研究者观察到在数学领域发现的智能体可以迁移到到非数学领域（表 4）。开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用whaosoft aiot

....

#一句话生成《黑神话：悟空》3D资产

胡渊鸣创业项目Meshy上新，免费试用

几何更干净、细致，工作流更合理，Meshy的3D生成能力又进化了，所有人都可以免费试用。

天命人，你现在已经到哪儿了？

毫无疑问，不论是朋友圈还是各个网络平台，这两天最火的是《黑神话：悟空》。

哪怕你平时根本不玩游戏，也可能因为破纪录的销售额，或者全网刷屏的「自来水」，而关注到这个被誉为「创造了中国游戏历史」的超级大作。

不过《黑神话：悟空》首次出圈，是因为一支实机演示视频。这支拥有近六千万播放量的预告片，宣告着在西方文化主导的游戏行业，中国玩家即将迎来他们梦寐以求的根植于中国文化的英雄主角。

而预告片中直击人心的视觉效果，无疑是《黑神话：悟空》大爆的直接原因。无论是对每个小怪形象的精心设计，还是庙宇之中精美的雕塑与建筑，游戏科学对视觉效果的雕琢，都做到了极致。

想把猴哥从这样的一张原画，变成能在游戏中施展「72 变」的 3D 对象，中间要经过建模、渲染、优化等繁琐流程。

从原画到建模

相比人物，场景建模更为复杂，《黑神话・悟空》的美术总监杨奇在采访中曾表示：一些场景建筑的原型需要到实地去考察和研究，形成自己的数字资产，再经过长达数月加工和美化，最后才能呈现出如此精美的画面。在扫描第一版重庆大足石刻时，建模一度达到夸张的「12 亿个面」，可见背后耗费的工作量何其巨大。

虽然这种工作量的人工精度难以企及，但 AI 工具的建模效果也已经足够能打。想要得到下图这样的建模效果只需要 1 分钟。铁甲上的花纹清晰分明，边缘也没有模糊和闪烁的迹象。

只需要选择雕塑风格，再输入「Black Myth：Wukong」与对应的角色，不需要高配置的电脑，直接就能得到接近游戏风格的 3D 对象：

这款 3D AIGC 工具来自一家创业公司 Meshy 。公司联合创始人兼 CEO 胡渊鸣是计算机图形学知名学者，毕业于清华大学姚班，MIT 博士，也是「太极」（TaiChi）编程语言作者。

截至目前，Meshy 已经更新到了第 4 代。从 2023 年 11 月登场，Meshy 就以快速、保真、操作简易走在行业前列。Meshy 3 在提升文生 3D 的真实感，以及图生 3D 模型的自然度与细腻度都往前迈了一步。这次的 Meshy 4 又带来了哪些新的进展呢？

干净、充满细节的几何网格

在 Meshy-4 中，胡渊鸣团队突破了 3D AI 生成的一些技术难题，无论你是使用文本到 3D 还是图像到 3D，现在都能体验到生成模型的几何质量大幅提升。

通过改进的生成算法，Meshy-4 生成的 3D 模型具有非常干净的硬表面，没有以前版本中困扰生成结果的凸起和凹痕。

此外，Meshy-4 生成的几何细节也得到大大增强，允许使用者创建高度复杂的模型，捕捉以前 AI 生成的模型无法捕捉到的细微差别。

团队还更新了「发现」页面，以配合 Meshy-4 的模型质量增强功能。更新之后，当你将鼠标悬停在 Meshy-4 生成的模型上时，你可以立即显示其无纹理版本。如此一来，你可以仔细检查模型的底层几何形状，看到 Meshy-4 改进算法提供的干净坚硬表面和复杂细节。

新的文本到 3D 工作流

Meshy-4 用户交互界面中最大的更新是新的文本到 3D 工作流。在以前的版本中，文本到 3D 过程分为粗略阶段（Coarse stage）和细化阶段（Refine stage）。虽然这种方法旨在逐步提高模型质量，但它经常让用户对最终结果感到不确定，Meshy 团队收到了大量关于细化模型偏离粗略结果的用户反馈。

因此，在 Meshy-4 中，他们以一种更独特和专注的方式将「文本到 3D」分割为两个步骤：建模和纹理。

建模阶段：在这个阶段，Meshy-4 根据文本提示生成 4 个无纹理模型。这一阶段生成的网格干净且高度详细，为最终资产的生成提供了坚实的基础。
纹理阶段：建模阶段完成后，你可以选择一个生成的网格结果来继续生成纹理。纹理是在之前版本的细化阶段直接生成的。最终生成结果在视觉上非常连贯。

Meshy 团队表示，这个新的文本到 3D 工作流也为后续专注于建模或纹理的新功能铺平了道路。二者的分离能够让使用者更方便地控制生成结果，例如在生成纹理之前编辑网格或为同一模型自定义多种颜色变体。

一次不行，再试一次

有人说现在的 AI 生成就像抽卡游戏，很难知道哪次能抽到好的结果。因此，Meshy 团队在新版本中加了一个「重试」功能。

即使你的纹理已经生成好了，「重试」也是可以用的。但需要注意的是，点击「重试」之后，之前的结果会被丢弃，因此最好慎重一些。

由于重试涉及更多的计算资源，该功能被设定为仅订阅用户可用。对于每个模型：

Pro 用户有 4 次重试机会。
Max 用户有 8 次重试机会。
Max Unlimited 用户有无数次重试机会。

多个模型可供选择

在之前发布的 Meshy-3 Turbo 中，团队引入了一个用于文本到 3D 生成的模型选择器，它允许使用者在 Meshy-3 和 Meshy-3 Turbo 算法之间切换。Meshy-4 进一步扩展了此功能，你可以在下面的选项中选择文本到 3D 和图像到 3D 任务中的生成模型。

Meshy-4：Meshy 最新、最先进的模型，能够生成平面几何、锐角和复杂的细节。
Meshy-3 Turbo：Meshy 最快的模型，细节少一些。适用于有机建模或高度艺术风格。
Meshy-3：Meshy 的传统模型，仅适用于文本到 3D。

另外，在新版本中，图像到 3D 中的「Mode」选项已被替换。这是因为它与底层模型完全对应：有机模式（Organic Mode）由 Meshy-3 Turbo 驱动，而坚硬表面模式（Hard Surface Mode）由 Meshy-4 驱动。

胡渊鸣与 Meshy 团队

Meshy 是胡渊鸣创立的一家初创公司，主要研究如何用 AI 生成更好的 3D 资产。

胡渊鸣是计算机图形学知名学者，毕业于清华大学姚班。

2019 年，在 MIT 读博期间，他主导开发了一个名为「太极」（Taichi）的开源计算机图像库，在计算机图形学领域引发广泛关注。2021 年 3 月，他通过了 MIT 电气工程与计算机科学博士论文答辩，之后回国创业，创立了名为「太极图形」的公司。该公司在成立不到一年的时间里就完成了两轮融资，包括 5000 万美元的 A 轮融资。

2023 年 11 月，胡渊鸣的全新创业项目 Meshy 曝光。新公司打造的在线生成 AI 工具（初版 Meshy ）只需一分钟，即可使用 Al 生成 3D 内容（模型）。在之后的几个月里，这个工具迅速迭代，如今已经迎来第四个大的版本。

据悉，Meshy 团队成员遍布全球，来自 MIT、哈佛大学、英伟达、谷歌、 Meta 等知名机构。他们希望通过提供一种直观、轻松的内容创建方式，彻底改变当前 3D 内容制作生态系统。

不过，他们也清楚，罗马不是一天建成的。所以他们从未设想未来会有一劳永逸的 AI 完全取代艺术家和设计师的工作。他们更希望自己打造的工具能成为增强创造力的工具，推动想象力的边界。

参考链接：https://www.meshy.ai/zh/blog/meshy-4-break-grounds

....

查看全文

http://www.dtcms.com/a/540988.html