当前位置：首页 > news >正文

51c大模型~合集190

news 2025/10/15 0:57:06

我自己的原文哦~ https://blog.51cto.com/whaosoft/14222861

#Qwen要做机器人了

林俊旸官宣成立xx智能团队

已经成为开源模型领头羊的 Qwen，终于要开始做机器人了。

昨天，阿里通义千问大语言模型负责人林俊旸在社交媒体上官宣，他们在 Qwen 内部组建了一个小型机器人、xx智能团队，同时表示「多模态基础模型正转变为基础智能体，这些智能体可以利用工具和记忆通过强化学习进行长程推理，它们绝对应该从虚拟世界走向物理世界」。

这一举动让关注 Qwen 的开发者兴奋不已。

其实，这一切早有预兆。

前段时间，自变量机器人完成近 10 亿元 A + 轮融资，阿里云是其背后的领投方之一，这也是阿里云首次领投xx智能企业。

在之后的云栖大会上，我们也看到了阿里在xx智能方向的一系列动作。

首先，在模型方面，阿里云智能集团公共云事业部xx智能负责人高飞提到，在他走访的 30 多家xx智能公司中，绝大多数都在用 Qwen-VL 做后训练，因为 Qwen 系列模型在空间理解、路径规划、长上下文记忆方面的长板可以帮xx智能公司解决很多核心痛点。可见，Qwen 系列模型不只在 AI 领域站稳了脚跟，也正在成为xx智能领域颇受欢迎的基座模型。在这样的需求下，Qwen 没有理由不为xx智能做专门优化。

所以我们看到，在云栖大会上，新发布的 Qwen3-VL 针对细粒度视觉理解、视频时序理解、3D 感知与规划以及带图推理和视觉交互能力进行了优化，为xx智能落地提供了更强的基础模型支撑。

这次成立xx智能团队，意味着 Qwen 有意让自家模型正式走入物理世界。这不仅能检验模型在真实场景中的理解、规划与执行能力，也能反向促进模型能力的演化。在物理世界中，模型必须面对复杂的反馈、噪声与不确定性，这将迫使其在感知融合、因果推理和长程记忆等方面不断进化。更重要的是，xx化还为 Qwen 带来新的数据与应用空间，让模型从文字世界延展到机器人、自动化、交互式设备等更广阔的落地场景。

这一动作也与阿里云的整体布局相呼应。前段时间，阿里云曾表示，基于之前在 AI 大模型、智驾方面积累的能力和经验，他们已经为深度支持xx智能行业做好了准备。在此过程中，他们会与众多xx智能公司展开合作，成立xx智能团队有利于加强他们自身对行业的理解。

阿里云的xx智能布局，正值全球科技巨头纷纷加码机器人领域之际。风险投资正持续涌入人形机器人赛道，市场普遍认为，生成式 AI 与机器人技术的融合，将从根本上改变人机交互方式。阿里的入局，为这一激烈竞争的赛道增添了新的变量。

在今年 6 月的英伟达股东大会上，英伟达首席执行官黄仁勋表示，人工智能与机器人是英伟达的两大核心技术机遇，有望为公司带来「数十万亿美元」的长期增长潜力。

黄仁勋当时指出，自动驾驶将成为机器人技术的首个大规模商业化应用场景，英伟达计划通过其技术，为数十亿台机器人、数亿辆自动驾驶汽车，以及数十万座机器人工厂提供算力支撑。

本周三，软银集团宣布将以 54 亿美元现金收购 ABB 的机器人业务，这被视为其在「物理 AI」领域的一次重大战略布局。

软银董事长孙正义表示，此次收购旨在「将人工超级智能与机器人深度融合」，打造软银的「下一个前沿」。

花旗集团预计，到 2050 年，全球机器人市场规模将达到 7 万亿美元。凭借巨大的市场潜力，该领域正吸引包括政府基金在内的大量资本加速涌入。

相关阅读：《在具xx智能的岔路口，这场论坛把数据、模型、Infra 聊透了》

参考链接：https://news.futunn.com/en/post/63019067/alibaba-has-taken-a-hands-on-approach-with-qwen-leading?futusource=news_newspage_recommend&level=1&data_ticket=1759975515137436

...

#DexFlyWheel

只需一条演示，DexFlyWheel框架让机器人学会「自我造数据」

当我们谈论机器人灵巧操作时，数据稀缺始终是悬浮在头顶的达摩克利斯之剑。

在大模型、自动驾驶领域纷纷依靠海量数据 “涌现” 出强大能力的今天，机器人灵巧操作依然困在数据瓶颈。

近期，北京大学、哈尔滨工业大学联合 PsiBot 灵初智能提出首个自我增强的灵巧操作数据生成框架 ——DexFlyWheel。该框架仅需单条演示即可启动任务，自动生成多样化的灵巧操作数据，旨在缓解灵巧手领域长期存在的数据稀缺问题。目前已被 NeurIPS 2025 接受为 Spotlight（入选率约 3.2%）

论文题目：DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation
论文链接：https://arxiv.org/abs/2509.23829
项目主页：https://DexFlyWheel.github.io

研究背景：

为什么灵巧手数据生成如此困难？

在xx智能快速发展的今天，覆盖多样化场景和任务的机器人数据集不断出现。但是面向五指灵巧手的操作数据集仍然缺乏。这背后有几个关键原因：

1. 传统方法失效。二指夹爪的生成方案在灵巧手上基本无法推广。启发式规划难以应对高维动作优化，LLM 虽然能提供语义引导，却难以生成精细的五指控制轨迹。

2. 高成本的人工示教。基于遥操作设备可以有效收集灵巧手数据，但是需大量人力、时间与资源。可扩展性低，难以形成多样化、规模化的数据集。

3. 纯强化学习效率低。完全依靠强化学习虽然可以训练出成功的策略并迭代成功轨迹，但往往出现手部动作不自然、机械臂抖动等问题，再加上探索效率低，难以高效产生高质量轨迹。

4. 仅限于抓取任务。目前已有一些灵巧手数据集被提出，但大多仅针对抓取任务进行特定设计，任务类型单一，难以迁移至其他精细操作场景，限制了灵巧手技能的泛化与发展。

5. 轨迹回放方法数据多样性有限。基于轨迹回放与编辑的方法是目前最常用的灵巧手数据生成方法，但它只能在预定义场景下做空间变换，无法探索新策略。导致了数据多样性低，难以支撑灵巧操作策略的泛化。

总体来看，无论是依赖人类示教、轨迹回放，还是单纯依靠强化学习，现有方法在成本、生成效率和数据多样性方面都存在明显局限，很难同时兼顾。

面对这一挑战，团队在实验中发现了一个有趣现象：

在灵巧手操作不同物体时，轨迹通常只需做细微调整。物体差别越小，调整越细微。

这启发团队提出一个新思路：成功的演示数据不应是数据生成的 “终点”，而可以成为更多场景下数据生成的 “起点”。换句话说，一条高质量轨迹完全可以被利用，衍生出大量新的训练数据。

更高层次地，智能系统往往遵循 “能力 — 数据 — 能力” 的迭代提升规律，从而推动自我演进。

这让团队进一步思考：灵巧手数据生成是否也可以形成类似的自我提升循环，让系统持续扩展、生成多样化的数据？

这就是 DexFlyWheel 背后的初衷：不再依赖大规模数据投入，而是为灵巧手构建一个只需少量轨迹启动，即可持续进化和自我提升的高效数据生成系统。

DexFlyWheel 技术解析：

自我提升的灵巧手数据生成飞轮

团队提出了一种兼具成本、高效性与可扩展性的方案，叫做 DexFlyWheel。它有两个核心思路：

1. 利用模仿学习 + 残差强化学习，重新定义演示的作用

团队基于关键发现 —— 操作不同物体时轨迹往往只需细微调整，设计了 “模仿学习 + 残差强化学习” 方法来将演示迁移到新场景。一方面，模仿学习保证轨迹保持人类演示的自然性；另一方面，残差强化学习对轨迹进行精细微调，使其适应新环境。最终，通过组合策略，能够高效生成多样化且类人的轨迹数据。

2. 构建数据与模型的闭环飞轮

DexFlyWheel 构建了数据与模型的自我提升循环，让模型在循环中自我提升，实现数据和策略性能的协同增长。

通过这两者的结合，DexFlyWheel 实现了高效且可扩展的数据生成，不仅显著提升了数据的多样性与规模，还将对原始演示的依赖降至每任务仅需 1 条，极大降低了成本。

DexFlyWheel 框架如下图，分为两个阶段：

1. 预热阶段：通过 VR 采集 1 条种子演示，经数据增强得到初始数据集。

2. 自我提升的数据飞轮阶段：

基础策略训练：利用扩散策略从数据中学习人类先验，保持行为的类人性。
残差策略训练：用残差强化学习对策略进行微调，增强其泛化到新场景的能力。
轨迹生成：基于组合策略，在仿真中的多样化场景下不断生成新的成功轨迹。
数据增强：对轨迹进行多维度增强，产出更丰富的数据集，用于下一轮迭代。

DexFlyWheel 就这样把一条演示 “放大”，让数据和策略在循环中不断自我提升。随着迭代推进，数据多样性快速增长，形成 “越用越强、越转越快” 的飞轮效应。

实验结果：

DexFlyWheel 生成效率更高、数据更多样，策略更强泛化

实验任务

四个灵巧手任务：单手抓取、单手倾倒、双手提起、双手交接。
每个任务仅需一条演示启动 DexFlyWheel。

主要实验指标与结果

1. 数据多样性显著提升

数据规模：从 1 条演示扩展至 500 条生成轨迹。
数据多样性：场景数量提升 214 倍，物体种类从 1 个扩展到平均 20 个。

2. 策略泛化能力显著提升

在包含物体、环境、空间布局三重变化的挑战性测试集上，成功率从初始的 16.5% 提升至 81.9%。

3. 全面超越基线方法

数据生成成功率：在多样且有挑战性的场景下，DexFlyWheel 数据生成成功率达到 89.8%，明显高于基于轨迹回放的基线方法 (63.0%)。
数据生成效率：生成 500 条多样化轨迹仅需 2.4 小时，相比人类演示和基于轨迹回放的基线方法，分别加快 1.83 倍和 5.21 倍。
训练策略性能：在多样且具有挑战性的测试集上，策略成功率达到 81.9%，超过基线 DexMicmicGen (31.4%) 和人类示教 (9.4%)。
综合表现：在数据生成成功率、生成效率以及策略性能上，均显著优于基于人类示教和轨迹编辑的方法。

Demo 展示：轻松操控多样物体，

从容完成高难任务，丝滑展现类人操作

1. 对比 baselines：我们的方法可以操作不同形状的物体，并且适应高难度任务双手交接，同时动作更加类人

，时长00:19

2. 仿真数据多样性：DexFlyWheel 数据不卷规模卷数据质量，通过 1 条演示启动生成了多样化场景下的数据，帮助提升灵巧策略泛化性。

，时长00:15

3. 真机迁移：DexFlyWheel 进一步通过数字孪生技术将训练策略部署至真实双灵巧手机器人系统。在 “双手提起” 与 “双手交接” 任务中，分别取得 78.3% 与 63.3% 的成功率，验证了仿真数据生成在现实机器人部署可行性。

，时长00:34

结语：数据飞轮——推动灵巧手走向现实与泛化

DexFlyWheel 针对灵巧手领域长期存在的数据稀缺问题，提供了一种自我提升的数据生成范式：

用模仿学习与残差强化学习构建了一个自我提升的数据飞轮。背后的思想是：解决数据难题的关键，并不在于一味收集更多数据，而在于让数据与系统相互迭代，让数据能够自己 “长大”。

与现有方法相比，DexFlyWheel 显著降低了数据收集成本，大幅提升了生成效率，并极大丰富了灵巧手数据的多样性。这一进展让灵巧手离现实应用与通用机器人更近了一步。

局限与展望

当然，DexFlyWheel 还不是完美的，未来工作正进一步完善这两方面：

奖励自动化：如何高效引入基于 LLM 的奖励设计系统，减少对人工设计奖励的依赖。
结合触觉模态：当前缺乏触觉感知，限制了在高精度任务中的表现；未来将引入触觉感知，进一步突破任务难度上限。

团队相信，灵巧手是未来通用机器人的必备执行末端，而持续生成高质量灵巧手数据的能力，则是推动灵巧手真正走向现实和泛化的重要一步。

...

#Ling-1T

更大，还能更快，更准！蚂蚁开源万亿参数语言模型Ling-1T，刷新多项SOTA

Ling-1T给效率革命交了一份更贴近场景的答卷——万亿级储备，百亿级开销，产业级落地。规模、速度与推理精度，其实可以兼顾。

完全测不过来了。

仅仅一个 9 月，全球就有十余家主流玩家扎堆开源大模型—— BAT、蚂蚁集团、深度求索、Meta FAIR、Mistral AI 等轮番登场，开源数量较8月直接翻倍还不止，态势堪称井喷。

其中，中国力量格外亮眼。蚂蚁集团几乎以一场「开源风暴」刷屏整月：旗下百灵大模型密集上线 7 款新品，平均每四天就有一个新模型问世，在性能、效率与功能维度持续突破。

9 月 30 日开源的思考模型 Ring-1T-preview（ Ring-1T 早期版本），首次把开源推理模型的「天花板」推到万亿参数级，连深度学习「三巨头」之一 Yann LeCun 都点赞，称「Impressive.」

这股势能还在高涨。10 月 9 日凌晨，百灵大模型再度出手，正式发布并开源通用语言大模型 Ling-1T ——蚂蚁迄今为止开源的参数规模最大的语言模型。至此，继月之暗面Kimi K2、阿里 Qwen3-Max 之后，又一位重量级选手迈入万亿参数LLM 「开源俱乐部」。

开源地址：https://huggingface.co/inclusionAI/Ling-1T
在线体验：ling.tbox.cn

大象起舞：

万亿参数，也能轻盈推理

Ling-1T 自百灵大模型「Ling 2.0 系列」，延续了蚂蚁自研的高效 MoE（ Mixture of Experts ）架构，它也是该系列的首款旗舰产品。而1T（ Trillion，万亿）级的总参数规模，让人再次直观感受到开源模型的「体量战争」还在加速升级。

提到「万亿参数」，不少人的第一反应往往是：「堆料取胜」、「花费高昂」。模型越大，推理越冗长；算得快又省，又怕不够准。「精确」和「效率」，永远像在玩跷跷板，此消彼长。而 Ling-1T 正通过帕累托改进（ Pareto Improvement ），改写这一刻板印象——

既不牺牲推理能力，又能显著提升思考效率，持续逼近几乎不可再改进的平衡点（帕累托最优）。

那么，Ling-1T 的「高质量输出」到底强在哪？官方晒出的成绩单显示，在多维基准测试中表现亮眼。

Ling-1T（最右列）与几款具有代表性的旗舰模型的比较，包括大参数量的开源模型（DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905）与闭源 API（GPT-5-main、Gemini-2.5-Pro）。

最引人注目的是编程与数学推理（ Coding & Math ）两大核心维度的表现。这些被称为高推理密度的任务，是大模型能力的天花板所在，而 Ling-1T 仍稳居第一梯队。

例如，在 LiveCodeBench（真实编程推理任务）上，Ling-1T 得分最高，显著高于 DeepSeek；在 ArtifactsBench（复杂软件逻辑建模）中，得分59.31，仅次于Gemini-2.5-Pro。

数学方面，在综合测试中，Omni-Math 与 UGMathBench 双双突破 74 分大关，稳居领先位置；在 FinanceReasoning（金融推理）中表现更稳，达到 87.45，展现出强大的逻辑一致性与跨领域推理能力。

知识理解（ Knowledge ）维度同样出色。Ling-1T在多个关键数据集上均处于领先或并列领先位置：

C-Eval（92.19）、MMLU-Redux（92.25）、MMLU-Pro（82.04）、MMLU-Pro-STEM（88.5）、OlympiadBench（91.3）。

这些分数整体比 DeepSeek、Kimi、GPT-5 主干模型普遍高出1～3 个百分点，部分指标甚至逼近Gemini-2.5-Pro 的上限。

这表明它不仅知识密度高、泛化能力强，更具备深度思考与逻辑推理的内在一致性。

在 Agent 推理与多轮对话（ Multi-turn Reasoning ）场景中，Ling-1T 的表现同样亮眼。尤其在 BFCL-v3 与 Creative-Writing 等具备开放思维特征的任务中，展现出自然语言表达与思维连贯性的平衡能力——不仅「会答题」，还「懂思考」。

有意思的是，智商拉满并不等于很烧钱。

在 AIME-25（美国数学邀请赛 2025）推理测试中，研究人员比较了各大模型的表现：

推理准确率 vs. 平均输出长度（即思考消耗的 token 数量）。

蓝色点代表Ling-1T，准确率高达 70.42%，与Gemini-2.5-Pro（70.1%）并列最高精度，但后者用了更长的输出（更多 token）。

与 Gemini-2.5-Pro 相比，Ling-1T 在更短的思考路径中，达到了同等甚至更高的推理正确率。

相比之下，GPT-5、DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905、Claude-4.1-Opus-250B 等模型的准确率明显更低，要么输出冗长，要么思考效率不高，普遍落在右下方或中间区域。

亲自试一试

写到这里，不少人或许会问：听起来确实令人印象深刻，但这和普通人又有什么关系？也许你从未调用过 API，也不会去跑模型。但这些模型的能力，正在悄然渗透进你的日常生活。

在支付软件中，它让智能助理更懂你的「吃穿用度」；理财助手会帮你盯盘、诊基；身体不适时，健康助手知道如何给出初步建议，甚至协助对接医疗资源。而在写作、编程、设计等场景里，你常用的工具，也因为它而变得更聪明。

刚上手 Ling-1T，最直观的感受就是：和传统推理模型不一样。不话痨，既不会把冗长的思考过程全展示出来，回答也言简意赅，反应迅速。

先让它写一个前端界面，设计一张用户卡片。完成度极高，几乎完美实现了所有关键指令：字体样式（斜体）、头像形状、布局居中都毫无问题，甚至对「主色调石板蓝、辅助色白」的抽象视觉要求，也精准拿捏。

提示词：请生成一个蓝紫色主题（主色调为 #6A5ACD，辅助色为白色）的现代用户卡片组件。卡片内必须包含：1. 用户头像（圆形占位符）；2. 用户名；3. 一句签名（使用斜体字）；4. 一个蓝色关注按钮；5. 整体布局居中。

接着，又让它设计一个漂亮的倒计时网页。渐变背景让人眼前一亮，意外地漂亮，也显得很有设计感。得益于「语法–功能–美学」混合奖励机制，Ling-1T不仅懂代码逻辑，也开始学会了审美。

，时长00:42

提示词：设计一个好看的倒计时网页。

因为上面的倒计时功能有 bug，我们又抽了一次卡。下面这个虽然色彩不如前一稿惊艳，但它的「巧思」藏在底部文案里，比如「时间晶体」、「量子纠缠倒计时」。倒数功能也完全正常。

，时长00:24

，时长00:21

提示词：请给前沿科技媒体xxx设计一个前沿风格网页，要求置顶部分滚动播出实时AI新闻。这一次意外惊喜来自鼠标轨迹，有粒子浮动效果，科幻又浪漫。

除了编程设计，Ling-1T 还能发挥科学与逻辑推理能力，化身大众的学习助手——答疑解惑，甚至能帮人撰写报告。

我们先用 2025 年数学新课标 I 卷的第15 题（解答题）试水，结果轻松过关。

那它能不能把复杂的东西也讲得通俗易懂？今年，2025 年诺贝尔物理学奖颁给了三位美国科学家，表彰他们通过实验验证了量子隧穿效应。

我们请 Ling-1T来讲讲：什么是量子隧穿效应？结果，它用「穿墙术」的比喻，把粒子「借力」穿透势垒的概念讲得直观又准确，没有跑偏，还有效地降低了理解门槛。

逻辑也很清晰：先对比经典世界与量子世界的差异，再解释原理、举例印证，最后总结关键点。

对《星际穿越》里的「虫洞」科普也同样出彩。没有令人头疼的公式，只有想象力：苹果、折纸、牙签的比喻，瞬间构建出一个直观的几何模型，把「弯曲宇宙的捷径」讲得入木三分。表格、问答、总结，层次分明、言简意赅。

紧接着，我们测试它的创意写作能力，关键不只是「会写」，而是「写得有意思」。无论是内容营销、广告文案、剧本创作，还是创意辅助，这项能力都能派上用场。

这是 Ling-1T 为一期介绍诺贝尔物理学奖的播客节目所写的开场白。按要求，它必须以《星际穿越》中那首诗为灵感。

结果令人惊喜：它不仅准确锁定了狄兰·托马斯的名作，语言富有张力，连背景音效都契合主题。

下面这篇 800 字的「诺奖物理学奖小红薯文案」，几乎可以直接发布。信息精准、结构清晰、有节奏感，一点都不晦涩。

最后，看看它的执行能力。任务很具体——「介绍武汉附近私藏、小众徒步路线，自驾不超过 2 小时，适合周末短期出行。」

现实中，无论个人还是企业，往往都需要模型去执行更复杂的任务：联网搜索、数据库查询、代码计算，甚至对接内部系统。拥有「工具调用」能力，意味着 Ling-1T 不只是「回答问题」，而是真正能调动外部资源、完成任务的执行者。

从结果来看，表现稳健。推荐的地点真实存在（没有幻觉），甚至不少地方连本地人都没去过，确实「小众」。

更有意思的是，排在第一的选项略超两小时车程，模型不仅自知，还说明理由——「虽然超时，但景观稀缺，值得破例」——这种自洽判断颇有人味。

整份结果不仅提供地理与交通信息，还涵盖季节性建议、专业贴士，落地性极强。

蚂蚁的帕累托改进：

万亿模型，如何更强又更省？

「堆大」不再是答案。Ling-1T 再次释放同一个信号：2025 年的大模型竞争，正在转向效率范式，如何在「大」的基础上实现效率革命。毕竟，真正要让 AI 像扫码支付一样无处不在，关键在于更快、更省、更稳的日常表现。

于是，「大参数储备 + 小参数激活」范式迅速成为突破口，用万亿级能力兜底，用百亿级开销响应。它既不牺牲推理力，也直面算力/成本的长期矛盾，让超大规模模型从实验室真正走入生活。

Ling-1T正是这一路线的样板。手握万亿参数，但每次调用只需百亿级计算资源——复杂问题能扛，响应速度不掉，成本曲线可控。一次漂亮的帕累托式改进，这才是面向产业的正确形态。

那么，「想得快」又能「想得准」，这种平衡从何而来？先说两个关键点：数据和架构。

一方面，提高「摄入知识」质量，超过 20T+ token 的高质量、高推理浓度语料，使得 Ling-1T 从数据层面就具备了更强的逻辑密度与思维深度。

另一方面，它还学会了「按需思考」。虽然每个 MoE 层拥有 256 位专才，但在推理时仅激活约 50B 参数：每次接到问题，系统只会挑出最合适的 8 位专家参与思考，再由共享专家整合结果。

结果是，万亿级智商背书，百亿级能耗落地，能效比显著抬升。

Ling-1T模型结构示意图，一款拥有 1 万亿参数的 MoE（Mixture of Experts）架构大模型，旨在保证强推理能力的同时，实现高效计算与低成本推理。

这套「按需思考」的路径，也带来了实际使用层面的质变。

支持128K 上下文，接近「长记忆」体验——一本书级别内容一口气读完，不丢线索，这对法律、金融、科研等长文档业务尤其关键。

分组查询注意力（ Grouped-Query Attention ）叠加高效 MoE，使深度理解与敏捷响应兼得，推理速度不再被长上下文拖累。

帕累托改进之二：

巨兽如何更聪明地学习？

除了数据和架构，Ling-1T 的另一个关键创新是把「学得更聪明」落到工程与训练范式上：不是多喂而是精喂，不是「猛灌」而是善练。

为了让模型「吃进去」的每一口，都是高推理密度的知识精华，蚂蚁自建 infra ，提升养分密度。

首先，打造了原生 FP8 混合精度训练平台，为万亿参数模型提供高吞吐、低能耗的算力底座。随后，又构建了基于统一数据湖宽表（Unified Wide Table on Data Lake）的 AI Data System，实现样本级血缘追踪，确保每一个 token 都「来源可追、质量可控」。

通过这套基础设施，蚂蚁在 40T+ 语料中提炼出 20T+ 的高推理密度数据，成为 Ling-1T 的核心「思考养料」。

在训练路径上，这套系统并非单一阶段的「猛灌」，而是以三阶段精英教育精细推进：

先用 10T 高知识密度语料打牢通识底座，再以 10T 高推理密度语料强化逻辑链条。中期的 Midtrain 是关键：不仅把「记忆力」扩展到 32K 上下文，更提前注入演进式思维链（Evo-CoT），为后训练阶段预热推理通路，让模型从「会背」过渡到「会想」。

为了让收敛更稳更快，训练节奏控制同样被精细化。

通过 Ling Scaling Laws 自动计算最优参数配置（学习速度、批量大小等），不再靠「手感」；

自研 WSM 调度器（Warmup–Stable–Merge）替代传统策略，在中期合并多轮训练成果，模拟自然收敛。最终，大模型在综合能力、常识、语言理解、专业知识、数学与代码等多赛道上普遍跑赢旧策略。

这六个子图代表模型在不同类型任务上的表现变化，比如综合能力、常识推理、语言理解、专业知识、数学和代码能力。蚂蚁在训练调度器上的一个关键突破 WSM（Warmup–Stable–Merge）相比传统的 WSD（Warmup–Stable–Decay），在几乎所有任务上都带来了明显的性能提升。

进入后训练（强化学习）阶段，关键在于把反馈颗粒度与人类语义对齐。传统 GRPO（词元级）像逐像素修图，细却碎，难以理解整体语义；GSPO（序列级）又太粗，稳定但反馈模糊。

而蚂蚁自研的「锦囊」LPO（ Language-unit Policy Optimization ），以「句子」为优化单元，直接在人类最小完备语义单位上对齐奖励与约束，既避免词元级的碎裂，也克服序列级的模糊，把训练目标从「对的词」升级为「对的理」，让模型生成逻辑完整、思维连贯的语言流。Ling-1T 也在高智商与稳健性之间找到新的平衡点。

开源，让「AI 普惠」

行业认为，AI 竞争，真正的分野不在于谁的模型更强，而在于开源与闭源的路线之争。越来越多的中国力量，正在选择前者。

一方面，这是阶段性必然。身处追赶者的位置，开源就像「众人抬车」，能让技术以更低成本、更高速度迭代前行。对于 Ling-1T 这样重工程型的大模型系统，开源社区本身就是一个去中心化的「质量与安全红队」，能显著降低边际改进成本，加快版本演进。

另一方面，中国的优势从不在单一模型本身，而在丰富的落地场景。尤其是金融、医疗等高合规行业，开源的透明性让企业有机会真正「看懂」模型：可以审计决策路径，植入自有知识，在可控的安全边界内释放智能价值。当信任可以被复制，智能才可能被普及。

更重要的是，开源降低了参与门槛。从开发者到中小企业，每一个个体都能以最低摩擦的方式「布点」入场，共建生态。

在开源 Ling-1T 之前，蚂蚁已经用高效的 MoE 架构与分层模型设计，将「万亿级能力」拆解成可落地的多种形态——

你可以在手机上运行 Ling-mini，在中小企业服务器上部署 Ling-flash，也可以在云端调用完整体 Ling-1T。

更进一步，蚂蚁不仅开源了模型本身，还开放了让模型持续进化的「底层能力」：从 ATorch 框架到强化学习工具链，让模型研发像 DevOps 一样实现「流水线化」。

这些决定，也更像是一种普惠哲学的践行。当有人用它理财，有人用它写文案，还把它嵌入风控系统、零售网络、金融终端、诊疗系统，当这些能力被频繁调用时，AI 才成为一种日常，像电力与支付那样，无感却又无处不在。

HuggingFace：https://huggingface.co/inclusionAI/Ling-1T

ModelScope：https://modelscope.cn/models/inclusionAI/Ling-1T

GitHub：https://github.com/inclusionAI/Ling-V2

Ling chat（国内用户）：https://ling.tbox.cn/chat

ZenMux（海外开发者，提供 Chat 测试与 API 等能力）：

https://zenmux.ai/inclusionai/ling-1t

~2 更高智商更快思考！蚂蚁开源最新万亿语言模型，多项复杂推理SOTA

万亿参数“巨兽”Ling-1T开源即封神：AIME 25竞赛数学70.42%准确率力压Gemini-2.5-Pro，代码、逻辑推理等22项基准全部SOTA；FP8混合精度+MoE架构让推理速度飙升，长文本128K上下文秒级响应，国产大模型再破性能天花板。

又一个万亿参数级国产模型开源了！

就在刚刚，蚂蚁正式发布百灵大模型的第一款旗舰模型——

拥有万亿参数的通用语言模型Ling-1T。

刚一登场，不仅超越开源模型DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905，还超越了闭源模型GPT-5-main、Gemini-2.5-Pro。

在有限输出token的条件下，于代码生成、软件开发、竞赛数学、专业数学、逻辑推理等多项复杂推理基准中取得SOTA表现。

不仅如此，Ling-1T还展现出高效思考与精准推理的优势。例如，在竞赛数学榜单AIME 25上，Ling-1T就超越了一众模型获得最优表现。

更重要的是，Ling-1T在推理速度上的表现堪称惊艳，输入刚落下，模型立刻就启动思考进程。无论是复杂的逻辑推演，还是生成多轮长文本，它都能快速响应保持流畅输出。

Ling-1T参数够多，但它到底有多强、有多快？还是得通过实测才能见真章。

推理高效，前端有惊喜

不妨先用经典推理题目来小试一下身手。

让7米长的甘蔗通过2米高1米宽的门。

只见Ling-1T先将其判断为一个典型的空间几何优化问题，并进行了关键障碍分析。

随后，共提出了4种解决方案，每种方案都有具体的操作步骤和适用场景说明。

更关键的是，Ling-1T还能严谨地对每种方法进行物理可行性验证，详细分析其所需条件和潜在风险。

可以说是有理有据了（doge）。

既然如此，咱可就给Ling-1T上难度了，用一道“外星人分裂”问题测试一下其数学能力。

一个外星人来到地球后等可能选择以下四件事中的一件完成：
1、自我毁灭；
2、分裂成两个外星人；
3、分裂成三个外星人；
4、什么都不做。
此后每天，每个外星人均会做一次选择，且彼此之间相互独立。
求地球上最终没有外星人的概率。

Ling-1T反应非常快，几乎是一看到问题就迅速开始分析与推理。

它首先确定了题目的类型，并对题目进行了建模，接着一步步求解最后得到正确答案：√2-1。

推理能力测试完毕，接下来轮到代码能力上场了。

正值诺贝尔奖揭晓之际，咱用它生成一个介绍诺贝尔奖的网站如何？

新模型kuku就是干啊，效果如下所示：

很直观，无需特意提醒，Ling-1T就将内容分成概览、奖项类别、历史时间线等模块，让用户可以快速定位感兴趣的信息。

无论是想了解整体概况、深入某个奖项类别，还是回顾诺贝尔物理学奖的历史演变，都能获得清晰、系统的呈现，使用体验更加直观高效。

双节假期刚结束，旅游攻略是不是做得头都大了。尝试用Ling-1T规划出行路线，它不仅把景点按特色分类，还贴心规划好一日游的时间安排和费用，连适合的交通工具、地道美食都一并推荐。所有选项都打上了清晰标签，让你轻松选择。

值得一提的是，基于Ling-1T强大的推理能力，研究团队还进一步提出了“语法–功能–美学”混合奖励机制，这意味着其生成的代码不仅正确、功能完整，还兼顾了界面和视觉美感。

例如，在ArtifactsBench前端能力基准上，Ling-1T就以明显优势成为开源模型中的第一名。

“中训练+后训练”，让模型真正“学会思考”

模型开源之外，这一次蚂蚁也完整公布了Ling-1T背后的技术思考。

总结起来，最值得关注的就是研究团队在扩展模型尺寸和强化推理能力两方面的探索。

参数数量决定了模型能存储和表达的信息量，就像大脑的神经元越多，记忆和思考的能力越强。

参数不足时，模型可能只能记住简单规律，面对复杂或长下文问题时容易出错。

当参数充足时，模型可以在更大数据量和更复杂任务中实现更准确的推理和更好的泛化能力。

基于上述原因，Ling-1T沿用了Ling 2.0的架构设计，并在此基础上将总参数量扩展至1万亿，其中每个token激活约50B参数。

其基础版本（Ling-1T-base）首先在超过20T token的高质量、强推理语料上完成了预训练，并支持最长128K的上下文窗口。

随后，团队通过采用“中训练+后训练”相结合的演进式思维链（Evo-CoT）方法，这一改进让模型不仅拥有海量知识，更能像人一样逐步推理，极大提升了模型的高效思考和精准推理能力。

在研发Ling-1T万亿级模型的过程中，研究团队发现，扩展模型规模和强化推理能力会带来一定的性能提升。

在预训练阶段，他们先搭建了一个统一的数据管理系统，这套系统能追踪每一条数据的来源和流向。

然后，他们整理了超过40万亿token的高质量语料，并挑选出最优部分，用于Ling-flash-2.0的20万亿token预训练计划。

毕竟模型的推理能力就像大脑思考问题，先打基础知识，再训练逻辑推理，基础打得扎实，思考才能快而准确。

为了让模型既能积累丰富知识，又能提高推理能力，团队将预训练分成3个阶段：

第一阶段先用10T token高知识密度语料训练，让模型先全面掌握事实、概念和常识，为后续推理打下坚实基础。

第二阶段用10T token高推理密度语料训练，让模型学会逻辑推理、多步思考和问题解决技巧，让模型不仅知道答案，还能分析思路，提高解决复杂问题的能力。

中间训练阶段（Midtrain）则扩展上下文窗口到32K token，同时提高推理类语料的质量和比例，并加入思维链推理内容，为模型进入后训练做好热身准备，保证逻辑连贯性和推理效率。

整个训练过程中，团队根据Ling Scaling Laws设置学习率和批量大小，并用自研的WSM（Warmup-Stable and Merge）替代传统的WSD（Warmup-Stable-Decay）学习率策略。

要知道，在训练大模型时需要控制学习率（学习速度），就像学习弹琴或开车一样，速度太快容易出错，太慢又不够高效。

为此，WSM框架可实现无衰减学习率却能提升模型性能，核心思路可以概括为以下3步：

Warmup（预热）：训练一开始慢慢来，让模型稳定起来，不出大错。

Stable（稳定）：训练中期保持稳定的学习速度，让模型慢慢学到规律。

Merge（合并）：把训练过程中不同阶段保存下来的模型“融合”在一起，相当于把每一阶段的优点结合起来，既保留早期探索的优势，又强化后期收敛的效果，让模型最终表现更好。

Ling-1T通过中训练检查点合并技术表明，即使不采用传统的学习率衰减策略，模型仍能在绝大多数下游任务中取得更优性能。

实验结果显示，影响模型表现最关键的不是合并次数，而是合并时的训练窗口，即何时进行合并以及合并持续的时间长度，对性能的影响远超其他因素。

在后训练阶段，由于当前主流的强化学习算法（如GRPO和GSPO）各有局限。

GRPO：将每个词元（token）视为独立动作进行优化，虽精细，但容易导致语义的过度碎片化。
GSPO：将整个生成序列视为单一动作进行优化，在全局序列级别执行策略更新，虽稳定，但又可能造成奖励信号的过度平滑。

蚂蚁发现，对于推理任务来说，句子比单个词元或整个序列更符合语义逻辑，它不仅能保持语义完整，又能让模型在局部逻辑上进行有效训练，从而更精准地捕捉语言中的推理和逻辑关系，因此更适合作为策略优化的基本单位。

于是，研究团队创新性地提出了LPO方法（Linguistics-Unit Policy Optimization，LingPO），首次将句子作为中间粒度进行策略优化，在语义与逻辑之间找到最佳平衡，并在这一层面上执行重要性采样和裁剪，从而帮助万亿参数模型更稳健地训练。

这种设计既避免了词元级别的碎片化问题，又克服了序列级别过于笼统的局限，使奖励信号与模型行为在语义层面上更加精准地对齐。

实验结果显示，与GRPO和GSPO相比，LPO在训练稳定性和模型泛化能力方面都具有明显优势。

中国大模型“王炸”连发

今年以来，中国开源力量不断给予大模型圈惊喜。从DeepSeek这尾鲶鱼搅乱基础大模型格局，到Qwen家族以全面覆盖、快速迭代的姿态撼动Llama系列王座……国产开源模型不仅在全球榜单上站到C位，更重要的是，每一次“开源大礼包”，都能从不同的角度给模型研究、应用带来新的思考。

此番蚂蚁开源Ling-1T，亦是如此。

在技术范式上，Ling-1T在架构设计和训练方法上实现了多重创新，以演进式思维链的新方法，使得模型在每一阶段中生成的思路或结论，都可以被复查、修正或扩展，从而不断迭代优化。

同时，前一阶段的推理成果会被累积并传递至后续阶段，形成知识的持续演进。这种渐进式的推理机制，不仅增强了思维过程的稳定性和结果准确性，也使得推理路径清晰可循，显著提升了复杂任务的可解释性。

在效果体验上，Ling-1T展现出令人印象深刻的快速响应能力，即刻可完成复杂任务的推理与生成。

无论是面对抽象的数学问题、多步骤的逻辑推演，还是编程任务与科学背景的深度解析，该模型均能迅速构建出条理清晰、逻辑严谨的解答。

总结起来，一方面，Ling-1T让蚂蚁正式加入 “万亿参数开源俱乐部”，与Qwen、Kimi并肩站在开源生态的第一梯队；另一方面，其创新的非思考模型架构与高效推理优化设计，为业界探索高性能思维模型提供了新的技术范式。

更加值得关注的是，尽管2025年只剩下最后的83天，但蚂蚁的最新开源动作，也意味着中国大模型厂商们的开源节奏并没有放缓。

就在国庆节前，Qwen接连推出多模态模型Qwen3-Next、Qwen3-VL以及图像编辑模型Qwen-Image-Edit-2509；DeepSeek也在短期内连续开源DeepSeek-V3.1-Terminus和DeepSeek-V3.2-Exp两个重要版本，还被爆料年底会有更重磅模型进展……现在，假期刚结束，蚂蚁再次把这种开源势头续住了。

可以预见的是，大模型领域的精彩还将继续。而下一个惊喜，大概率还是来自中国。

...

#听说，大家都在梭后训练？

最佳指南来了

LLM 后训练最佳入门介绍。

在大模型时代，Scaling Law 一度是 AI 领域公认的准则：只要堆更多数据、参数、算力，模型能力就会持续增长。GPT-3、PaLM 等的成功，几乎都是这种策略的胜利。

然而，事情并没有一直按这条曲线上涨。研究者发现当模型的规模扩展到百亿、千亿级之后，Scaling Law 带来的边际效益开始递减。

于是，业界开始将目光从大力出奇迹的预训练，转向收益更大的后训练（Post-training）阶段。也正是在这个阶段，我们看到了 RLHF、RLAIF、DPO、RLVR 等方法的爆发式创新。

一时间，「梭哈后训练」成了共识：

OpenAI o 系列、DeepSeek R1、Google Gemini 等这些以推理为核心的模型，都通过强化学习后训练来提升模型的推理能力，后训练正在成为 LLM 走向高阶智能的必经之路。

既然后训练这么重要，那么作为初学者，应该掌握哪些知识？大家不妨看看这篇博客《Post-training 101》，可以很好的入门 LLM 后训练相关知识。

博客作者有两位，分别是 Meta 超级智能实验室研究科学家 Han Fang，他本科毕业于中山大学；以及 Meta 在线算法、机器学习和 LLM 相关的研究者 Karthik Abinav Sankararaman。

原文链接：https://tokens-for-thoughts.notion.site/post-training-101

该指南涵盖以下几个核心部分：

从对下一个 token 预测过渡到指令跟随；

监督微调（SFT）基本原理，包括数据集构建与损失函数设计；

多种强化学习后训练技术（RLHF、RLAIF、RLVR），并详细解释奖励模型的工作机制；

用于评估模型质量的各类评测方法。

从预训练到指令微调的演进之路

基础模型（或称预训练模型）通常是通过在大规模文本和图像数据上进行预训练得到的。预训练的主要目标是将关于世界（更准确地说是关于互联网）的知识编码进模型中。其训练目标非常直接：让模型学习预测在给定前文序列的情况下，下一个 token 是什么。

然而，尽管基础模型可能掌握了大量知识，但由于下一个 token 预测这一训练目标本身的限制，使得它在大多数实际应用场景中的效用并不理想。

下图 1 可以帮助我们理解这两类模型在行为上的区别。当它们被输入同一个提示语：「What is the capital city of U.S」时（注意：这里的提示语末尾没有问号），两者的响应会有所不同：

预训练模型（图左）由于是基于下一个 token 进行训练的，它会先预测出问号（即？），然后再继续生成后续文本；
指令微调模型则会直接回答「Washington, D.C.」，因为它在训练中通常被优化为直接回答用户的问题，而不是仅仅做续写。

为了让 LLM 在问答场景中真正发挥作用，我们通常会在基础模型的基础上进行后训练（也称为微调）。与使用从互联网抓取的大规模网页语料不同，后训练所使用的数据规模通常更小，但质量更高、内容更精细。

后训练的核心目标是对模型的行为进行对齐（如诚实、无害），并进一步强化模型在预训练阶段积累的能力。

目前，主流的后训练技术包括监督微调（SFT）和基于人类反馈的强化学习（RLHF）等。

自 DeepSeek R1 之后，又出现了基于可验证奖励的强化学习（RLVR）方法，它在提升模型推理能力和代码能力方面表现尤为突出。

有时你可能还会听到一些术语，比如持续预训练（continued pre-training）或中间训练（mid-training）。这些术语并不十分正式，通常用来描述在基础模型之上，对特定高质量数据集或目标语料进行进一步预训练的过程，目的是提升模型在某些特定领域的能力。

后训练的端到端生命周期

在高层次上，后训练是将基础模型转化为一个既有用又安全的指令微调模型的过程（见下图 3）。后训练通常有两大类训练技术：监督微调（SFT）和强化学习（RL）。

在 InstructGPT（GPT-3.5 前身）问世之初，OpenAI 引入了一个两阶段流程，即「SFT + RLHF」。到了 2024 年，DeepSeek 推出了 DeepSeek V3，该模型大量使用了 RLVR，其中 VR 代表可验证奖励（也称规则奖励或准确率奖励）。此后，DeepSeek 又发布了 R1 模型。它描述了 R1-zero（在基础模型上直接使用 RL）以及最终的 R1 模型，后者采用了一个两阶段 RL，其中第一阶段是面向推理的 RL，第二阶段是「全场景」RL（即与人类偏好对齐）。

目前，后训练研究仍在快速演进中。因此，「最佳实践」往往很快就会过时，研究社区在这一领域不断地取得新进展。

图 3：后训练的端到端生命周期。

在 SFT 和 RL 两个阶段中，绝大多数繁重的工作都集中在后训练数据的构建与实验上。这些数据既可以来自数据供应商（如数据标注公司），也可以由其他模型合成生成。可以说，后训练中最重要的部分无疑是后训练数据的质量。

如《Gemini 2.5 Pro》论文中特别强调地，「自从 Gemini 1.5 发布以来，我们在后训练方法论上取得了显著进展，而这些进展得益于我们在 SFT、奖励建模（RM）和 RL 阶段对数据质量的关注」。下文将讨论后训练数据质量中一些提升最终模型质量的重要因素。

贯穿整个后训练生命周期的是：每个阶段得到的模型都会经历某种形式的评估，包括：自动化评估（例如用于知识的 MMLU 和用于指令跟随的 IFEval）被研究人员用来理解每个训练阶段和模型变动的效果，人工评估（即由人工与模型交互，并根据标注准则对输出进行打分）仍然是衡量有用性和对齐程度的关键方法。

什么是监督微调（SFT）？

SFT 是这样一个阶段：它将一个在预训练过程中已经获得大量知识的模型，转化为能够遵循用户指令并具有普遍实用性的模型。SFT 的实现方式是通过向模型提供我们期望的行为示例来完成，具体做法是收集包含指令–回答对的数据集（例如提示及其理想答案），然后在这一数据集上对预训练模型进行微调。

最终得到的模型能做到：

学会遵循指令；
生成符合正确格式和语气的输出；
并可作为后续偏好优化和强化学习的基础。

SFT 数据集

从本质上看，SFT 只是监督学习，其中模型被「教授」在一组输入查询下的正确输出。学习过程要求模型在给定前缀的情况下生成后续的一组 token，然后通过目标 token 的交叉熵损失对其进行优化。这与训练一个多类别分类问题的方式完全相同。

因此，该数据集是由指令–回答对 (x,y) 组成的集合，其中：

x 是输入的指令或提示；
y 是目标输出（人工撰写或高质量模型生成）。

图 4：SFT 数据示例。这里的回答通常被认为是由人类专家或教师模型撰写的「黄金回答」。

SFT 数据集的数据质量

SFT 的效果取决于背后的数据集质量。与预训练不同，预训练中庞大的规模可以在一定程度上掩盖噪声，而 SFT 数据集通常规模较小（约 1 万到 10 万个样本），且经过高度筛选。这使得它们对缺陷极为敏感：即便少量低质量样本也可能教会模型错误的行为。这也是为什么近年来的开源实践方案都强调严格的数据筛选与去污染。

尤其对于推理模型而言，粗糙的数据会导致不忠实或不一致的思维链。例如，模型生成的解释并不真正反映其得出答案的推理过程。高质量的 SFT 数据应当准确、风格一致、避免无关的枝节，并且要与期望模型学习的能力相匹配。

SFT 数据集中最常见的问题可以分为三类：标签噪声、分布不匹配和伪推理。

标签噪声来自人工标注者或模型生成的答案，这些答案可能是错误的、不完整的或不一致的。分布不匹配则出现在数据集范围过窄时（例如只包含数学题或简短回答），这会导致模型在真实世界场景中表现不佳。伪推理问题出现在看似逐步展开的推理轨迹中，实则包含逻辑漏洞、误导性的捷径，甚至是直接复制粘贴的模板。这些问题都会限制模型的泛化能力，并削弱后续基于 RL 的对齐效果。

为了减轻这些风险，实践者通常会结合使用过滤、验证和数据增强方法。

过滤技术包括自动化（或人工审核）的质量检查，例如验证数学答案是否计算正确、代码能否正常执行以及推理链是否真正导向所声称的最终答案。验证通常涉及保留一部分高质量的黄金数据集，用于持续监测模型漂移（即模型随着时间或数据变化，其输出行为或性能偏离预期目标的现象）。数据增强则可以通过采样更多样化的任务来平衡分布，利用更高质量的教师模型生成推理轨迹，或者将带噪声的样本改写为更清晰的格式。

在实践中，最有效的方法是形成一个反馈循环：收集数据、进行质量过滤、评估模型行为，并不断迭代优化数据集，直到 SFT 阶段能够为后续的偏好优化奠定坚实基础。

图 5：数据质量检查 pipeline。

在这个循环过程中，通常会使用一个或多个强大的 LLM 作为「裁判」，来识别各种类型的问题。以下是一份 SFT 数据集中常见问题的检查清单，这些问题都可以利用 LLM 裁判、代码或外部工具，以及其他分类器的组合来进行识别。

SFT 数据如何进行批处理和填充

一旦我们收集好了用于 SFT 的指令–回答对，下一个挑战就是如何高效地将它们输入 GPU。语言模型依赖固定形状的张量：一个批次中的每个样本必须具有相同的长度。但是，真实文本的长度差异很大，一个答案可能只有 12 个 token，而另一个可能有 240 个 token。

为了解决这一问题，我们会将数据打包成批次，并使用填充（padding）和固定的最大序列长度 T；许多大规模训练方案还会把较短的样本拼接在一起，然后再切分成固定长度的序列，以减少填充的浪费。

批处理（batching）指的是将多个样本分组，以便它们可以并行处理。例如，批大小为 16 表示模型会同时看到 16 个提示与回答。这样做能提升 GPU 利用率，并使梯度计算更加稳定。但是，由于序列长度不同，我们会以批次中最长的样本为基准，使其他所有序列都与它对齐。

这时就需要用到填充。填充 token 是一些特殊的「空」token（通常用 PAD 表示），它们会被附加到较短序列的末尾，使一个批次中的所有序列长度一致。我们会使用注意力掩码来告知模型忽略这些填充部分，因此它们不会影响损失计算。具体如下：

示例 1：[The, cat, sat] → 长度 3
示例 2：[Dogs, bark, loudly, at, night] → 长度 5
如果将它们放在同一个批次中，我们会把示例 1 填充到长度 5: [The, cat, sat, PAD, PAD]

在训练过程中，注意力掩码为 [1, 1, 1, 0, 0]，因此损失只会在真实 token 上计算。这样既能保证梯度的正确性，又能让张量保持矩形结构。

在实践中，批处理和填充策略会显著影响吞吐量。

动态批处理（分桶）：将长度相近的样本分组，以减少填充需求。
序列打包：将多个较短的样本拼接成一个长序列，并用特殊 token 分隔，以减少空间浪费。
掩码机制：确保只有「真实」的 token 才会对梯度产生贡献。

SFT 损失函数 - 负对数似然函数

由于 SFT 本质上就是一个多分类问题（number of classes = vocab_size），因此用于训练模型的损失函数就是在给定输入 x 的条件下，生成正确序列 y 的负对数似然（NLL）。这一过程通常通过计算模型预测类别与数据集中真实类别之间的交叉熵来实现（在输出序列的每个 token 上进行）。数学形式如下所示：

其中：

θ 表示模型参数
y_t 表示目标回答中的第 t 个 token
y_<t 表示前缀（即之前的 token）
p_θ(・) 表示模型给出的概率分布

在实践中，这通常通过交叉熵函数来实现。在序列的第 t 步，设 y_t^* 为正确的 token（来自真实数据集）。设 p_θ(y_t^* | x,y_<t) 为参数为 θ 的模型生成 token y_t^* 的对数概率。然后模型会优化以下函数：

为了保证数值稳定性，这个函数通常基于最后一层的 logits 来实现（即 LLM 最后一层的输出，在通过 softmax 函数之前的结果）。设 V 为词表大小，z_t ∈ R^V 表示序列中第 t 个 token 在最后一层的 logits。针对 y_t^* 的预测分布由以下公式给出:

因此，SFT 损失简化为：

第二项就是常见的「log-sum-exp」项，它通常通过一种数值稳定的方式计算（称为「log-sum-exp 技巧」），如下所示。

由于 z_t,v - m ≤ 0，这可以确保 exp (z_t,v - m)≤ 1，因此不会出现整数溢出问题。整数下溢会被安全地舍入为 0，这正是预期的行为。将这些结合起来，最终得到的 SFT 损失函数为：

接下来将深入探讨后训练的主要阶段之一 —— 强化学习（RL）。

RL 训练技巧有哪些？

在所有后训练方法中，强化学习或许是最复杂的一种，同时也是目前最有效的模型微调方式之一。

在传统强化学习中，整体可以被看作一个循环过程：智能体根据环境状态从策略（policy，即模型）中采样动作，以最大化某种奖励信号。

RL 奖励

奖励是一个标量值，用于表示对某个动作或状态的期望程度。

上述公式旨在最大化期望奖励，同时通过 KL 散度来进行正则化约束。

在模型对齐与能力提升的过程中，有多种类型的奖励机制被证明是有效的：

RLHF（基于人类反馈的强化学习）借助从人类偏好中训练出的奖励模型（Reward Models, RMs），帮助模型在日常对话中表现更优，并对其安全性与语言风格进行对齐。
RLAIF（基于 AI 反馈的强化学习），也被称为 Constitutional AI（由 Anthropic 提出），通过将 LLM 与一份书面形式的规则结合，实现监督信号的自主扩展，生成偏好导向的奖励信号。
RLVR（基于可验证信号的强化学习）在提升数学推理与代码能力方面表现突出，它使用真实答案、单元测试、代码执行结果等可验证信号作为精确的奖励来源。
过程监督（Process Supervision）的粒度比 RLVR 更细，它通过过程奖励模型（Process Reward Model, PRM），对长任务中的中间步骤进行逐步评分。
最后，基于评分标准（rubrics）的奖励机制可以通过判断模型输出是否满足一组明确的评分标准来生成奖励。通常会使用多个评分标准，因此最终奖励往往是各评分项得分的加权和或平均值。

在实际应用中，后训练流程通常采用一种混合式、多阶段的训练方案，在不同阶段融合多种奖励类型（例如：SFT → 偏好优化 → 带有可验证 / 评分标准信号的 RL）。

奖励模型与人类偏好

在 RLHF 发展初期，InstructGPT 论文提出了一种方法：即通过人类偏好排序来训练奖励模型，这也成为了 RLHF 中的核心组件之一。

最常见的奖励模型任务是：预测某个候选回复在多大程度上符合人类对该提示语的偏好。这种能力是通过一批带有人类偏好标签的「提示语–回复」数据集训练出来的。换句话说，奖励模型的目标是估计在给定指引下，人类标注者更倾向于哪一个输出。

为收集偏好数据，研究人员会针对一个提示语生成多个模型回复，让人工标注者对这些回复按从最好到最差进行排序。这些排序数据用于训练奖励模型，而训练好的奖励模型则在强化学习微调阶段为模型输出提供标量奖励信号。

什么是偏好数据？

偏好数据的一般形式是：一个提示语配对两个回复，即成对比较（pairwise preference）。简单说就是一个模型生成两个回复（回复 A 和回复 B）。标注者判断 A 是否比 B 更好，或反之。还可以让标注者对多个回复进行整体排序，记录任意两个回复之间的比较。许多 RLHF 流程正是通过这种方式来构建奖励模型所需的数据集。

数据示例如下：

JSON 格式：

{"prompt": [{"system":"You are a helpful, honest assistant."},{"role": "user", "content": "What color is the sky?"},],"chosen": [{"role": "assistant", "content": "Washington, D.C."}],"rejected": [{"role": "assistant", "content": "? The capital of the United States is Washington, D.C."}],
}

RL 提示和数据

接下来，文章给出了一些不同奖励类型下的 RL 提示示例数据。

可验证奖励（Verifiable rewards）：

适用场景：存在可靠的自动化检验器，可用于判断结果是否正确或合规。
最佳应用领域：数学、代码生成、结构化抽取 / 格式化、有标准答案的检索任务、以及结果可检验的工具调用。

JSON 格式：

{"prompt": [{"system":"You are a helpful, honest assistant."},{"role": "user", "content": "Solve: (3x - 2)(x + 5) = 0. Provide only the roots separated by commas in ascending order."},],"metadata": ["ground truth response": "-5, 0.6666667","reward": 1.0,"scorer:" math_grader],
}

JSON 格式：

{"prompt": [{"system":"You are a helpful, honest assistant."},{"role": "user", "content": "Implement is_palindrome (s: str) -> bool. Ignore case and non-alphanumerics."},],"metadata": ["scorer": code_grader,"suite": {"suite_id": "palindrome_001_v3","suite_hash": "sha256:e2b4...9d","entry_point": "is_palindrome","runtime": {"image": "python:3.11", "timeout_s": 4, "mem_mb": 1024},"public_tests_count": 4,"hidden_tests_count": 18},],
}

偏好奖励：

何时使用：在没有严格检查的情况下。
最佳适用领域：聊天、摘要、重写、风格、安全性。

RL 算法

下表给出了 LLM 后训练中常用的几类强化学习算法。

最初，社区主要使用 PPO（近端策略优化，Proximal Policy Optimization）；但自 DeepSeek-V3 发布后，GRPO（组相对策略优化，Group Relative Policy Optimization）成为了更受欢迎的选择。两者的主要区别在于：GRPO 去掉了单独的价值（critic）网络，而是通过组采样来估计相对优势，从而减少了内存与计算成本。

另外，REINFORCE 是一种经典的强化学习算法，它同样不依赖 critic 网络，且实现非常简单。

最后，尽管从技术上来说 DPO（直接偏好优化，Direct Preference Optimization）并不是强化学习算法，但它因无需奖励模型而广受关注；其训练成本低、稳定性好，通常在固定的偏好数据上进行离线训练。

如何评估后训练模型？

后训练评估形式多样，需从多维度进行评估。传统指标（如困惑度）无法捕捉有效性，而人工评估昂贵且主观。因此，成功的评估需要融合多种方法，以覆盖模型质量的各个方面。

后训练评估方法可分为以下几类：自动评估、人工评估。

自动评估通常快速且廉价，且无需昂贵的人工干预。一般包含基于标准答案的评估、基于大语言模型的评估等。

而人工评估是由人类评估员直接评判模型输出，是评估模型主观质量的黄金标准，尤其适用于自动评估难以衡量的开放式或敏感任务（如评估礼貌性、创意性）。但此类方法成本高、耗时多，且结果易受标注者偏见、文化背景等因素影响。

下面是人工评估中的单点评估和基于偏好的评估对比：

...

#NovaFlow

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

本文共同第一作者为李鸿宇（布朗大学博士生）和孙凌峰（Robotics and AI Institute 研究员，博士毕业于加州大学伯克利分校）。通讯作者付佳慧在 Robotics and AI Institute 任研究员，博士毕业于麻省理工学院。George Konidaris 为布朗大学副教授。

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。然而，理想很丰满，现实却很骨感。VLA 模型的端到端训练范式，要求海量与特定机器人相关的 “视觉 - 语言 - 动作” 数据。与 LLM 和 VLM 可以轻易获取的网络规模数据不同，机器人数据的采集成本极高、难度极大，这形成了一个巨大的 “数据瓶颈”。有没有可能绕过这个瓶颈，让机器人不依赖于昂贵的 “亲身经历” 数据，也能学会新技能呢？

最近，来自布朗大学（Brown University）和机器人与人工智能研究所（Robotics and AI Institute，前波士顿动力人工智能研究所）的研究团队提出了一个全新的自动操作框架 NovaFlow。该方法另辟蹊径，不再要求通过机器人或者人类演示去收集数据，而是巧妙地利用了大型视频生成模型中蕴含的、源于互联网海量视频的 “常识” 知识。通过让机器人 “观看” 由视频模型生成的任务视频，并从中提炼出一种名为 “可执行 3D 对象流” 的任务表征，NovaFlow 成功实现了在无需任何真实演示或额外训练的情况下，让机器人零样本（Zero-Shot）完成复杂的操控任务。这项工作为通用机器人的实现提供了一条极具潜力的新路径。

论文标题：NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos
论文地址：https://novaflow.lhy.xyz/
作者信息：Hongyu Li (hli230@cs.brown.edu), Jiahui Fu (jfu@rai-inst.com)

，时长00:27

核心思想：从 “观看” 视频到 “理解” 动作

传统的机器人学习范式，要么需要人类提供大量的示教数据（模仿学习），要么需要机器人在环境中进行大量的试错（强化学习），两者都效率不高且泛化能力有限。NovaFlow 的核心洞见在于：将人类指令的 “任务理解” 与机器人的 “底层控制” 彻底解耦。

研究团队假设，在互联网海量视频数据上训练出来的视频生成模型，已经学习到了关于世界如何运作的丰富常识和物理知识。比如，如何 “把杯子挂到架子上”，这个任务中物体间的相对位置关系和轨迹等信息，都已涵盖在视频模型中。因此，我们不再需要从头教机器人这些知识，而是可以通过一个简单的文本指令（例如 “把杯子挂到架子上” 或者 “把抽屉打开”）和一张现场照片，让视频模型生成一段展示该任务如何完成的 “教学视频”。

然而，原始的视频像素无法直接被机器人控制器使用。这里的关键挑战是如何将视频中非结构化的视觉信息，转化为机器人可以理解和执行的结构化指令。为此，NovaFlow 引入了一个核心的中间表征 —— 可执行 3D 对象流（Actionable 3D Object Flow）。

这种 “动作流” 本质上是目标物体在三维空间中运动轨迹的点云集合。它只描述物体本身应该如何移动，而与执行任务的是人手还是机械臂无关。这种以物体为中心的设计，是 NovaFlow 能够跨不同机器人平台（embodiment-agnostic）实现泛化的关键。

图 1：NovaFlow 框架概览。给定任务指令，模型生成一段任务视频，并从中提炼出与机器人观测对齐的 3D 可执行对象流，进而生成机械臂轨迹，完成对刚性、关节体和可变形物体的操作。

NovaFlow 的工作流程：两步走

NovaFlow 的整体框架由两个核心组件构成：动作流生成器（Flow Generator）和动作流执行器（Flow Executor）。

动作流生成器：四步将视频 “翻译” 成 3D 动作指令

这个模块的目标是，根据用户输入的一句自然语言指令和一张初始场景的 RGB-D 图像，生成目标物体的 3D 动作流。整个过程无需任何人工干预，完全由一系列预训练好的视觉模型完成。

图 2：动作流生成器。从初始图像和文本提示生成视频，再通过一系列视觉模块将其提炼为以对象为中心的 3D 可执行流。

1. 视频生成：首先，使用像通义万相或可灵 AI 这样的 SOTA 视频生成模型，根据初始图像和文本指令（如 “打开抽屉”）生成一段几秒钟的视频。

，时长00:05

2. 2D 到 3D 提升：由于生成的视频是 2D 的，而我们在 3D 世界中执行任务，我们需要将 2D 信息提升到 3D 空间。NovaFlow 通过单目视频深度估计算法，为视频的每一帧生成对应的深度图。由于单目深度估计模型会产生系统性误差，研究团队额外利用了第一帧真实的深度图来对估计的单目深度视频进行校准。

3. 3D 点追踪：在有了 3D 视频后，使用 3D 点追踪模型，密集地追踪视频中每一个点在三维空间中的运动轨迹。

4. 对象分割与提取：上一步追踪了整个场景的运动。为了得到 “对象” 的动作流，NovaFlow 使用开放词汇的对象检测和分割模型（如 Grounded-SAM2），将视频中的目标物体（如抽屉）从背景中分割出来。最后，只保留属于该物体的运动轨迹，就得到了最终的、纯净的 “可执行 3D 对象流”。

值得一提的是，由于视频生成模型有时会产生不符合物理规律或指令的 “幻觉” 内容，研究团队还引入了一个拒绝采样步骤：并行生成多个候选视频及其动作流，然后利用一个强大的 VLM 模型（如 Gemini）来评估哪个动作流最 “合理”，并选择最优的那个用于后续执行。

动作流执行器：将 3D 动作流转化为机器人动作

这个模块负责将抽象的 3D 对象流 “翻译” 成机器人可以执行的具体动作序列。它针对不同类型的物体，采用了不同的策略：

对于刚性物体（和铰接物体如抽屉）：由于移动物体是刚性的，它的运动可以用一个简单的刚体变换（旋转和平移）来描述。执行器通过分析动作流中关键点的变化，计算出物体在每个时间步的 6D 位姿（位置 + 姿态）。然后，结合抓取位姿生成模型，计算出机械臂末端执行器需要达到的相应位姿序列，最后通过轨迹优化生成平滑且无碰撞的关节指令。
对于可变形物体（如绳子）：可变形物体的动力学更为复杂，无法用简单的刚体变换描述。此时，3D 动作流就成了一个更强大的工具。它被用作一个密集的追踪目标，指导一个基于模型的规划器（如模型预测控制 MPC）进行操作。规划器会利用一个粒子动力学模型来预测绳子的形态变化，并不断优化机器人的动作，使得绳子的实际状态尽可能地去拟合动作流所定义的理想状态。

“真金火炼”：实验效果如何？

研究团队在 Franka 机械臂（桌面操作）和波士顿动力的 Spot 四足机器人（移动操作）上，对 NovaFlow 进行了广泛的实验验证。任务涵盖了刚性物体（挂杯子、插木块）、铰接物体（开抽屉）和可变形物体（拉直绳子）三大类。

图 3：真实世界桌面操作任务的成功率对比。NovaFlow（紫色）在所有零样本方法中表现最佳，甚至优于使用 10 个和 30 个示教数据训练的模仿学习策略（DP）。

实验结果令人印象深刻：

1. 超越同类零样本方法：与 AVDC、VidBot 等同样不需要示教数据的零样本方法相比，NovaFlow 在各项任务上均取得了最高的成功率。这得益于其精确的 3D 动作表示，而其他方法多依赖 2D 光流，缺乏 3D 感知和长期一致性。

2. 超越需要数据的模仿学习方法：更引人注目的是，NovaFlow 的表现甚至超过了使用 10 个乃至 30 个真实示教数据为每个任务单独训练的模仿学习基线（Diffusion Policy）。这充分证明了从生成视频中提取常识知识的巨大潜力，成功绕过了对真实机器人数据的依赖。

挑战与未来展望

尽管 NovaFlow 取得了显著成功，但研究也揭示了当前方法的局限性。失效分析表明，大部分的失败并非发生在 “理解” 阶段，而是发生在物理执行的 “最后一公里”，如抓取失败、或因意外的物理动态导致的执行偏差。这暴露了当前开环（open-loop）规划系统的脆弱性 —— 计划制定后便不再根据实际情况调整。未来的一个重要研究方向是开发闭环反馈系统。通过实时感知环境反馈，动态地调整或重新规划生成的动作流，从而使系统对现实世界中的不确定性和干扰更加鲁棒。

总而言之，NovaFlow 为机器人自主操作提出了一个全新的、无需示教的框架。它通过解耦任务理解与底层控制，并创造性地利用大型视频生成模型作为常识知识的来源，有力地证明了在没有机器人特定数据的情况下实现通用、泛化操作的可能性。这或许将是我们向着能够 “举一反三” 的通用机器人迈出的关键一步。

...

#Being-VL

Being-VL的视觉BPE路线：把「看」和「说」真正统一起来

在多模态模型里，CLIP-style encoder 往往把视觉表征过早地拉近到文本空间：对于抽象层面的问答，如总结图片大致内容，这样的表征其实是没有什么问题的，但一旦追问与语言无强依赖的细节，模型就更易出现幻觉。根本原因之一，是在文本空间对齐之前，原生视觉结构已被不可逆地压缩 / 丢失，而语言模型不得不「二次解码」来自他模态的 embedding，导致对齐脆弱、推理链条变长。

为此，北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。Being-VL 的出发点是把这一步后置：先在纯自监督、无 language condition 的设定下，把图像离散化并「分词」，再与文本在同一词表、同一序列中由同一 Transformer 统一建模，从源头缩短跨模态链路并保留视觉结构先验。

Being-VL 的实现分为三步。首先用 VQ（如 VQ-GAN）把图像量化为离散 VQ tokens；随后训练一个视觉版 BPE，不只看共现频次，还显式度量空间一致性，以优先合并那些既常见又在不同图像中相对位置稳定的 token 对，得到更具语义与结构的 BPE tokens；最后把视觉 tokens 与文本 tokens 串成同一序列，进入同一个自回归 LLM 统一建模，不再依赖额外 projector 或 CLIP 对齐。整个 BPE 词表学习仅依赖图像统计，不看文本，真正把「语言对齐」留到后续阶段。

论文链接：https://arxiv.org/abs/2506.23639
项目主页：https://beingbeyond.github.io/Being-VL-0.5
GitHub：https://github.com/beingbeyond/Being-VL-0.5

与「把视觉直接投到文本空间」有何本质不同？

传统做法让 LLM 去再解释外部视觉 encoder 的连续 embedding；即便 encoder 学到了丰富模式，没有对应解码器，LLM 也要额外学习如何「读懂」其他模态，这会放大模态鸿沟并诱发幻觉。Being-VL 把视觉提前离散化为可组合的 tokens，并在序列里与文本统一建模，减少表征形态错位，缩短跨模态因果链条，从而在保持感知细节与高层语义的同时，降低「想象成分」。

针对视觉场景设计的 BPE tokenizer：频次 × 空间一致性

文本大模型中的 BPE 只看「谁和谁经常相邻」。在视觉里，如果只按频次去合并，容易破坏结构。Being-VL 因此提出 Priority-Guided Encoding：基于 score P (a,b)=F (a,b)+α・S (a,b) 进行 BPE 词表构建，其中 F 为邻接频次，S 衡量在不同图像中的相对位置一致性，相似度用高斯核对齐。这样得到的视觉词表既覆盖高频模式，又保留空间结构。并且这个过程完全不依赖文本。

三阶段训练：从 VQ/BPE embeddings 到 LLM backbone 的渐进解冻

为了让统一的离散表示平滑接入语言模型，Being-VL 采用三阶段（3-stage）训练并显式控制解冻顺序：

Stage-1 / Embedding Alignment：只训练新扩展的视觉 token embeddings（包括 VQ 与 BPE 两部分），其余参数全部冻结，完成基础对齐而不扰动原有语言能力。
Stage-2 / Selective Fine-tuning：解冻 LLM 前若干层（默认约 25%），其余层继续冻结，让跨模态交互首先在底层表征中发生。
Stage-3 / Full Fine-tuning：全量解冻，在更复杂的 reasoning /instruction 数据上收尾，强化高级能力。

与解冻节奏配套，数据采用 curriculum：从基础 caption 与属性识别，逐步过渡到视觉问答与多轮指令，显式对齐 BPE 的「由局部到整体」的层级特性。消融表明：渐进解冻 + curriculum 明显优于单阶段训练；只用其中任一也不如两者合用。

实验与分析

Being-VL 的一系列对照实验给出一个清晰结论：把图像先离散化并做视觉 BPE，再与文本在同一序列里统一建模，既稳又有效。相较传统「先拉到文本空间」的做法，这种统一的离散表示更少丢失原生视觉信息，因而在细节敏感的问答与抗幻觉上更可靠；而一旦移除 BPE，性能与稳健性都会整体下降，说明增益主要来自于把「常见且空间关系稳定」的视觉模式合成更有语义的 tokens，让 LLM 在更合适的粒度上推理。

训练与规模选择方面也有明确「可执行」的答案。三阶段渐进解冻 + curriculum 是默认策略：先只对齐 VQ/BPE embeddings，再解冻一部分 LLM backbone，最后全量微调，能在不扰动语言能力的前提下稳步提升跨模态理解。

Visual BPE Token 激活机制可视化

Embedding 权重的可视化揭示了词表设计对跨模态表征的影响：在不使用 visual BPE 的基线模型（上图）中，文本与视觉 token 的权重呈现显著偏置与分离，体现出明显的模态隔阂；而引入不同词表大小的 visual BPE（中、下图）后，两类 token 的权重分布趋于均衡与同构，说明 BPE 在更细粒度上对齐了子词 / 子片段层面的统计与表征空间。由此带来的直接效应是跨模态注意力的共享基准更一致、梯度信号更可比，从而降低模态间的分布漂移与共现偏差。

词表大小对训练效率与扩展潜力的影响

研究进一步考察了 BPE 词表规模的作用。可视化结果显示：在训练资源受限的情形下，与 VQ 等规模的码本在表达能力与训练效率之间取得了更佳平衡，处于「甜点区」。当词表继续增大（≥16K）时，会出现大量低利用率、呈稀疏分布的 token，导致单位算力的收益下降。不过，这也预示着在数据规模扩张时存在更强的上限潜力。论文提出的方法可在更大的词表与更多数据的配合下，释放这部分扩展空间，进一步提升模型表现。

发展与小结（Being-VL-0 → Being-VL-0.5）

Being-VL-0 (ICLR 2025)

Being-VL-0 给出的是视觉离散化 + BPE 的可行性与动机：从理论分析与 toy 实验出发，得出结论 BPE-style 合并能把必要的结构先验灌注进 token，使 Transformer 更易学习；并初步探索了两阶段训练（PT→SFT）、文本 embedding 冻结策略与数据 scaling 带来的稳健增益。
项目地址：
https://github.com/BeingBeyond/Being-VL-0

Being-VL-0.5 (ICCV 2025 highlight)

Being-VL-0.5 则把这一路线进一步优化为一个统一建模框架：频次与空间一致性联合的 Priority-Guided Encoding、VQ/BPE/LLM 三阶段渐进解冻、以及配套的 curriculum 数据策略。
项目地址：
https://beingbeyond.github.io/Being-VL-0.5

...

#RL4HS

最近高产的苹果！精准定位LLM幻觉，超越GPT-5及o3！

苹果这几天真是进入了论文高产期，时不时就有新的研究发布出来。

就在近日，苹果又发布了一篇引发学界与业界关注的重磅论文。

这篇论文非常有意思，它用强化学习训练模型，让模型能够准确标出答案中哪些部分是幻觉（hallucinated）。

其核心突破在于：模型不再只是笼统地提示有错误，而是能直接指出具体哪一段文字是错误的。这对于需要修改输出或进行事实审查的用户来说，大大节省了时间。

论文提出的方法名为 RL4HS，它使用了片段级奖励（span-level rewards）和类别感知的 GRPO（Class-Aware Group Relative Policy Optimization），从而避免模型偷懒、只输出无错误预测。

该方法在片段级幻觉检测任务上，甚至超过了 GPT-5 和 o3。

总体而言，片段级奖励 + 类别平衡机制让模型真正学会了核查依据并精确指出错误内容，这是让大语言模型更可靠、更可审计的重要一步。

来源：https://x.com/rohanpaul_ai/status/1974652007068967315

接下来我们看看论文内容。

论文摘要部分，作者表示大语言模型常常会生成幻觉内容，即与事实不符、缺乏支持的信息，这会削弱模型输出的可靠性。以往的大多数研究都将幻觉检测视为一个二分类任务（即判断是否存在幻觉），但在许多实际应用中，人们需要识别具体的幻觉片段（hallucinated spans），这实际上是一个多步骤决策过程。

这自然引出了一个关键问题：显式推理是否能帮助完成幻觉片段检测这一复杂任务？

为了解答这个问题，来自苹果等机构的研究者首先对有无思维链推理的预训练模型进行了评估，结果表明：具备 CoT 推理的模型在多次采样时，往往能至少生成一个正确答案。

受到这一发现的启发，研究者提出了一个新的框架 RL4HS（Reinforcement Learning for Hallucination Span detection）。

该框架通过强化学习机制，利用片段级（span-level）奖励函数来激励模型进行推理。RL4HS 基于组相对策略优化（GRPO）方法构建，并引入了类别感知策略优化，以缓解奖励不平衡问题。

在 RAGTruth 基准测试集（涵盖摘要生成、问答、数据到文本等任务）上的实验结果显示：

RL4HS 的表现优于预训练的推理模型与传统监督微调方法；
这表明，对于幻觉片段检测任务，基于片段级奖励的强化学习机制是必要且有效的。
论文地址：https://arxiv.org/pdf/2510.02173
论文标题：Learning to Reason for Hallucination Span Detection

RL4HS 框架

本研究的核心问题之一是：显式推理是否有助于识别幻觉片段。

作为初步实验，研究者选取了 Qwen2.5-7B 和 Qwen3-8B 两种模型，在是否启用思维链两种模式下进行评估。研究者让大模型（Qwen 系列）分别在先推理后判断和直接判断两种模式下工作。

针对每个输入，本文对模型进行 K 次采样，并根据 Span-F1 指标选择最佳预测结果。相应的 Span-F1@K 结果如图 1 所示。

结果显示，当 K=1 时，思维链推理对 Qwen2.5-7B 模型没有带来性能提升，对 Qwen3-8B 模型的提升也较为有限。然而随着 K 值增大，Span-F1@K 指标的差距显著扩大，这证明思维链推理在多次采样时至少能产生一次准确预测的潜力。这些结果为采用强化学习方法来激发大语言模型在幻觉片段检测方面的推理能力提供了明确依据。本文在 Qwen2.5-14B 和 Qwen3-14B 模型上也进行了相同实验，观察到了类似现象。

此外，本文还采用了 GRPO，其学习目标定义如下：

尽管 GRPO 在组内对优势值进行了标准化处理，但本文发现预测类型会显著影响优势值的大小，如图 3 所示。

这种偏差源于奖励函数 r_span 固有的不对称性。在非幻觉类别中，模型只需预测一个空片段列表即可获得高奖励；而在幻觉类别中，模型必须精确定位并输出正确的片段范围。后者是更困难的目标，细微误差就会导致基于 F1 的奖励大幅降低。因此，GRPO 会过度激励模型做出非幻觉预测，最终形成高精确率但召回率被抑制的偏差行为。

为了解决这种不平衡问题，本文提出了类别感知策略优化（Class-Aware Policy Optimization，简称 CAPO）。该方法为非幻觉类别的样本引入一个缩放因子 α，用于调整其对应的优势值，从而缓解奖励偏差。本实验中使用 α = 0.5。

实验

实验数据集如下所示：

实验主要采用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作为基础模型。

作为对比，本文还评估了以下几类模型：

预训练推理模型：Qwen3-8B、Qwen3-14B 和 QwQ-32B；
商用推理模型：GPT-5、o3、GPT-4o-mini 以及 GPT-5-mini。

表 1 报告了 RAGTruth 在摘要、问答和数据转文本等任务中的幻觉检测结果。

预训练指令微调模型： Qwen2.5-7B/14B-Instruct（无论是否使用 CoT）在任务中的表现都较差，F1 分数低于 30，这表明仅依靠提示并不足以实现精确的片段级定位。
预训练推理模型：具备推理能力的模型（如 QwQ-32B、Qwen3-8B、Qwen3-14B）在幻觉检测任务中能够迁移部分推理能力。例如，Qwen3-14B 在摘要任务上的 F1 提升至 35.8，而 Qwen2.5-14B-Instruct 仅为 32.9。然而，这些模型的表现仍落后于微调模型，这说明仅具备一般推理能力还不足以胜任片段级幻觉检测任务。
微调基线模型：监督微调显著提升了性能，在 14B 规模下 F1 达到 55.4。
RL4HS 模型：RL4HS 在所有基线模型之上表现出一致的优势，包括专有模型 GPT-4o/5-mini、GPT-5 和 o3。RL4HS-7B 在三个任务上的平均 F1 达到 55.9，显著优于 SFT 的 50.1。在 14B 规模下，RL4HS-14B 在摘要、问答和数据到文本任务上分别取得 57.6、54.8 和 62.6 的成绩，超越了 Qwen3 系列以及表现最强的 GPT-5 和 o3 模型。

下图表明 CAPO 有效地解决了优势分布分析中揭示的不平衡问题。

为了更好地理解 RL4HS 所学习到的推理行为，本文在 RAGTruth 数据集上进行了定性结果分析（见表 3）。这一示例聚焦于一个具体的不一致问题。

预训练模型。在微调之前，预训练模型未能识别这一不一致。虽然它检查了结构化的营业时间和用户评价，但忽略了一个关键事实：结构化数据中并没有任何与餐饮服务相关的属性。因此，模型未标注出任何幻觉片段。

RL4HS。相比之下，RL4HS 成功识别出了提供餐饮服务这一声明是幻觉内容。其推理过程与人工设计的启发式检测流程高度一致