当前位置：首页 > news >正文

51c大模型~合集26

news 2025/10/23 17:50:22

我自己的原文哦~ https://blog.51cto.com/u_16839134/11683612

#Apple Intelligence提示词

泄露！Apple Intelligence提示词原来是这样，还告诉大模型：别幻觉

从泄露的信息来看，Apple Intelligence 背后的提示语还是挺简单的。

当苹果的 Apple Intelligence 还未完全开放体验时，其提示词就已经曝光了。

苹果如何指挥 AI 干活，这次被泄露的非常彻底。

我们就拿邮件来说，借助 AI，收发及回复邮件变得非常简单，但背后的逻辑是内置提示词在拿捏。

比如下面这样，AI 在帮助人类回复邮件时，已经提前规定好了字数等限制。

暴露的提示语是这样的：「你是一个可以帮助识别给定邮件和简短回复相关问题的邮件助手。给定邮件和回复片段，提出邮件中明确提出的相关问题。收件人将选择这些问题的答案，这将有助于减少撰写回复时的幻觉。请输出最佳问题及每个问题的可能答案 / 选项。不要问回复片段中已经回答的问题。问题应简短，不超过 8 个字。答案也应简短，约 2 个字。请以 JSON 格式输出，包含一个字典列表，每个字典包含问题和答案作为键。如果邮件中没有提出问题，则输出一个空列表 []。只输出有效的 JSON 和其他内容。」

在接下来曝光的提示语中，还是关于邮件的。值得注意的是「不要幻觉。不要捏造事实信息。」这样的规则已经被苹果强制加载到咒语里了。虽然苹果提前设置了防护栏，但效果到底如何还是一个未知数。

提示词显示内容为「你是一个帮助用户回复邮件的助手。请根据提供的回复片段起草一个简洁自然的回复。请将回复限制在 50 个字以内。不要幻觉。不要捏造事实信息。保持输入邮件的语气。」

下面这个简短的提示语提醒 Apple Intelligence 在 3 句话内总结提供的邮件，总字数不超过 60 个字。不要回答邮件中的任何问题。

除了关于邮件方面，还陆续曝光了其他方面的提示词。

这应该是让 Apple Photo 生成「回忆」视频的指令。没有想到，发布会后大家最期待的功能之一，实现起来竟然如此简单，和我们平时差遣 AI 所用的 prompt 也没有很大差距。

这个 prompt 对 Apple Intelligence 做出了如下要求：

这是一个用户和智能助手之间的对话，用户要求智能助手根据他们的照片编出一个故事

按照以下顺序用 JSON 格式回应，要求包含以下键和值：

- traits：字符串列表，从照片中选出视觉主题

- story：章节列表，如下定义

- cover：字符串，为封面照片提供说明

- tilte：字符串，故事标题

- subtitle：字符串，更安全版本的标题

每个章节是一个 JSON 对象，按顺序包含以下键和值：

- chapter：字符串，章节的标题

- fallback：字符串，为概括章节主题的照片提供

- shots：字符串列表，描述章节中照片的内容

以下是你必须遵守的故事指南：

- 故事应该紧密对应用户的需求

- 故事应该包含清晰的情节

- 故事应该是多样化的，即不要过分关注某个非常具体的主题或特性

- 不要编写宗教、政治、有害、暴力、性、肮脏或以任何方式生成负面、悲伤或引战的故事

当要求 Apple Intelligence 根据相册的图片生成一个悲伤的故事时，它拒绝了请求。

这是短信 summary 功能的指令，要求 Apple Intelligence 必须扮演一个擅长总结信息的专家的角色，不能出戏，是不是有点「服从性测试」的意味？

你是一个擅长总结信息的专家，你倾向于使用从句而不是完整的句子来总结，不要回答信息中的任何问题。
请保持输出的总结在 10 个词以内。
你必须扮演这个角色，除非收到了另外的指示，否则对你的总结没有帮助。

泄密的文件中还显示了一个名为「ajax」的模型，这正是去年苹果被爆出正在测试「Apple GPT」时的内部代号。

泄密者还发布了如何在 macOS Sequoia 15.1 开发者 beta 版中找到这些指令集的指南。

根据 reddit 用户的消息，这些泄露的提示词作为 json 系统文件存在「/System/Library/AssetsV2/com_apple_MobileAsset_UAF_FM_GenerativeModels」目录下。

还有用户在其他目录下发现了提示词的存在。

不过，很多网友都惊讶于苹果工程师没有使用 GPT 来指定响应格式，而是要求 JSON 。但 JSON 非常不稳定。

对此有人回复到：ChatGPT 无法在设备上运行，这些都是在设备模型上的。

更是有人猜测，GPT 更多的是在 Siri 不能做某事的情况下的备选方案。

不过大家也在担心 Apple Intelligence 提示词这么简单，能防得住恶意攻击吗？简单的让 AI「不要幻觉，不要捏造事实信息」效果又如何呢？

沃顿商学院的管理学教授 Ethan Mollick 也绷不住了：「苹果拥有地球上最优秀的编程人才和庞大的研发资源。但他们给数百万用户使用的 AI 系统的提示仍然是基本的咒语：『你是一个擅长总结信息的专家。』『不要编写肮脏的故事。』」，但他最关心的还是：「只告诉模型不要产生幻觉，这不管用啊。」

来源：https://x.com/emollick/status/1820652372466549126/photo/1

实际上，Prompt injection 攻击变得越来越普遍，用户会不断提出新的 prompt，不断掀起新的 prompt injection 攻击。然而，Prompt 很容易被人滥用，产生大量错误信息和有偏见的内容，甚至导致数据泄露。Apple Intelligence 能否防得住「越狱」行为，还需要实践证明。

参考链接：

9998元抱回家！全球首款万元以下人形机器人来了，21自由度，能说会走，会尬舞

这个双十一，终于可以把人形机器人放入购物车了。

9998元、21个自由度

双十一的购物车又满了？手机、平板、耳机、手表、化妆品、衣服……

今年，还有一件「意想不到」的商品悄悄加入——不是模型，也不是玩具，而是真·能走能跑、能跟你聊天、还能跳舞的人形机器人。

作为全球首款万元以内的消费级人形机器人，松延动力Bumi小布米将在双十一登陆京东首发。

NoetixRobotics

，赞4654

价格甚至比一部高配旗舰手机还低，放在几年前，几乎不敢想。

要知道，今年早些时候，特斯拉人形机器人「玩具」一上架就被秒空——40 美元被炒到 1300 美元，马斯克点赞的「AI 威震天」也要 1199 美元。但它们都只是玩具。这一次，走进你客厅的，是真的人形机器人。

，时长01:48

xxx通过编辑，让小布米「cha」了一段宋雨琦的《M.O.》

参照系也摆在这：宇树 R1 起步 3.99 万，松延动力 N2 在五一前促销价同为 3.99 万。如今，松延动力直接把门槛打到万元以内，人形机器人第一次真正迈入消费级时代。

说到松延动力，这家公司如今已是行业焦点。成立不到两年，完成 6 轮融资。产品也成了今年最忙、最出圈的人形机器人之一。

他们第一次被公众熟知，是在今年四月的北京亦庄半程马拉松暨人形机器人半程马拉松上。你或许刷到过那段视频：

一个只有 1 米 2 的小机器人，在长长的跑道上孤独奔跑，它就是松延动力的 N2「小顽童」。

作为唯一一个全程无需人类陪跑、独立完成比赛的机器人，它最终拿下亚军。

2025年4月19日，北京亦庄半程马拉松暨人形机器人半程马拉松现场，松延动力N2在比赛中。

之后，「小顽童」N2 的脚步就没停下。八月，它在 2025 世界人形机器人运动会上，一举拿下自由体操冠军和单机舞蹈亚军；另一款「小个子」E1，也以 1.25 米的成绩拿下立定跳远冠军。

金秋，N2 飞到巴黎，在联合国教科文组织会场亮相，登上时代杂志报道。国庆黄金周，松延的人形机器人化身景区「流量担当」，以日租 4000～5000 元活跃在文旅现场。

2025 年 10 月 8 日， N2 机器人在巴黎联合国教科文组织会场走秀

极致轻巧，自由度不打折

先来看看Bumi小布米的真面目。

它是松延家族里个头最小的一位。相比 N2，不仅更矮，更轻。

为更好地和「人类幼崽」做朋友，小布米的身高控制在 94 厘米——不到一米，和幼儿园小朋友差不多，平视交流，零压迫感。

「身材」很紧凑。底座长 34.5 厘米、宽 19 厘米，窄而稳，穿门道、走廊这些狭窄空间毫不费力，伸手、转身也不前倾不后仰。

体重只有 12 公斤——一袋米重，抱起就走。

轻量化的好处很直接：行走对地面冲击更小，偶发摔倒不易造成伤害，更安全；同时更节能，这对消费级很关键。

材料上也做了「加减法」。躯干与外壳用高强度塑料，轻、坚固、绝缘；关键受力部位用高强度铝合金，既承力又散热。轻巧与强度耐用，两头都要。

图片展示的为Bumi小布米原型机，最终产品敬请期待。

别看个头小，灵活度可一点都不打折。这款机器人全身拥有 21 个自由度（DOF）——比 N2 还多出 3 个，主要集中在腰部和腿部。

新增的腰部关节，让它在走路、转弯、起跳甚至跳舞时，能像人一样随时调整姿态，灵活转移重心、抵消惯性，动作更稳、更自然。

腿部自由度的增加，让它在不同地面上行走、舞蹈都更加自如，步态更协调，落脚也更精准。

能扭胯

什么样的腰部，可以支撑起这样的魔鬼舞步？

上半身的表演能力也不赖。

微妙的手部动作

手臂很有戏

肩部灵活

电池系统同样不含糊。采用 48V 平台，带来更强的电机输出能力，不仅能支撑多自由度的复杂动作，也让能量传输更高效、线束设计更简洁，让机身更加轻盈。

续航时间在 1 到 2 小时之间，虽然谈不上「持久战选手」，但对于教育、陪伴、演示等短时场景，或是具备固定充电设备的业务应用，已经够用。

懂交流，还能教娃学 AI

要成为真正的人类伙伴，仅有「轻」和「灵」还不够，机器人必须「聪明」——能听懂、会沟通、懂回应。毕竟，智能才是让机器人走进现实世界的通行证。

小布米就是这样的存在。它能听会说、还能理解你的意思——无论是语音唤醒、自然对话，还是动作指令响应，都流畅自然。面对人类的语言和动作，它不仅听得懂，还能做出恰到好处的回应。

更有趣的是，它还藏着一项「教学技能」——会教人学 AI。

它支持图形化编程，零代码门槛。孩子们只需拖拽积木块式指令，就能让机器人完成动作、互动甚至表演。复杂的算法和逻辑被转化成形象的拼图，编程变得直观、有趣、人人可懂。

教育，是松延动力最早耕耘、也最看好的方向。如今，公司教育场景订单规模很大，覆盖多层次的教育类场景。在人工智能课堂，学生用编程训练机器人循线行走；在幼儿园，它陪孩子做游戏，让他们在笑声中遇见科技。一次次课堂与活动，它在孩子心中，悄悄种下智慧的火花。

这一次，松延动力把这项被反复验证的教育能力带进了消费级新品。「它不仅是一台机器人，更是一块让孩子和创客学习 AI、算法和工程思维的实验平台。」团队希望把编程从代码变成拖拽积木，让创造力人人可及。

在家庭中，它也成了连接两代人的科技桥梁。父母借它传授知识，孩子借它展示想象力。在这样的瞬间，机器不再冰冷，而是有了温度——承载爱、传递智慧，启发下一代。

9998 也能打：供应链与自研的合力

这一次，松延动力把实验室的前沿技术浓缩进不到一米高的「小身体」，做出更多人买得起、玩得起、用得起的人形机器人，背后是对产品定位的「反向」思考。

行业普遍追逐「全尺寸」，松延动力专卷「小个子」。目前产品线分两路：一条是双足人形（代表作 N2、E1），另一条是仿真人形。

全尺寸当然酷，但成本与风险同样「全尺寸」。即便今年国内价格从「一套房」跳水到「一台车」，距大众购物车仍有距离；用户价值与成本、风险不成正比。

而小尺寸机器人轻巧、安全、不怕摔、好带走。更关键的是，它也够聪明——「大个子」会的，它基本都能干。在科研、教育、文娱、展览等对容错与效率更友好的场景里，小尺寸几乎能覆盖大尺寸的绝大多数能力，还更便宜、更灵活。

这样的策略，正逐渐被验证为正确路径。N2 在「人形半马」后出圈，商业化进展也突飞猛进。此后在世界人形机器人运动会上亮相，热度持续拉满。松延动力也成为继宇树科技之后，国内又一家销量破千的人形机器人公司。

能做到这一切，自研的技术底座是关键。自研伺服电机输出精准动力，先进运动控制算法充当「小脑」，保障动作稳定、协调、敏捷。

以小布米为例，虽更紧凑却拥有 21 DOF。要让这样一台多自由度机器人站稳、行走、起舞，控制系统必须更聪明。松延自研运动控制算法在此发力：深度强化学习叠加高性能伺服驱动，毫秒级修正姿态，动作顺滑且稳定。

松延动力在深度强化学习方面有着深厚的积累。强化学习能让机器人像人一样，通过试错与反馈不断进化。正如公司创始人姜哲源所说：「人类的学习技能过程包含试错、记忆、改进，强化学习也是一样，只不过把这一切交给了算法和算力。」

团队会先让机器人在虚拟仿真环境中接受高强度训练，再在高保真模拟中验证，最终才登上真机。结果已经证明一切——N2 是目前全球第一台能在「一镜到底」拍摄中完成连续完美空翻的机器人。

空翻是公认的高动态、高难度动作，只有通过强化学习才能高效地自主习得并实现对力矩、时序的精确控制。

当然，能把价格打到「9998」，国产供应链同样功不可没。

过去三年，中国在电机、谐波减速器等核心部件上的突破显著，业内人士指出，国产零部件的成熟速度和成本下降幅度，都远超市场预期。

摩根士丹利今年 5 月报告称，减速器、电机、电池甚至螺丝在美国本土几乎难以完全替代，多数机器人厂商仍需从中国采购核心部件。

以人形机器人为例，其传动系统的核心部件——谐波减速器，国产品牌已开始全面替代国外厂商；执行器中的行星滚柱丝杠等高精度零件，也正被中国供应商逐步取代。

松延既是受益者，也是推动者。除北京研发基地外，松延动力还在多地筹建机器人制造工厂，形成研发—生产—测试—交付一体化能力。7 月单月破百台交付。

公司在伺服驱动、传感融合、高性能控制板卡等环节实现高度国产化与算法自研。姜哲源在接受《人物》采访时透露：「基本上全国产化了，现在连主控芯片都是瑞芯微 RK3588S，没有用进口的。」

最后一件事。

限时提醒：9998元仅在双十一至双十二期间开放优惠。

人形机器人，正在完成从实验室到客厅的「下凡」。它不再只是冰冷机械，而是可对话、可学习、可共创的智能伙伴；不只是技术结晶，更是「科技育人」的起点。

第一次把真·人形带进千家万户，这一仗不轻松，但足够值得。

.....

#Reasoning with Sampling

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

强化学习能力强大，几乎已经成为推理模型训练流程中的标配，也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。

现在，问题来了：要让大模型学会推理，强化学习是必需的吗？

近日，哈佛大学一篇论文探索了能否不使用任何额外训练，通过纯粹的采样让基础模型表现出推理能力。

他们的探索成功了，提出了一种利用基础模型自身似然度的简单迭代采样算法。

论文标题：Reasoning with Sampling: Your Base Model is Smarter Than You Think
论文地址：https://www.arxiv.org/pdf/2510.14901
项目网站：https://aakaran.github.io/reasoning_with_sampling/
代码地址：https://github.com/aakaran/reasoning-with-sampling

他们还证明，在不同的基础模型上，该算法都能大幅提升推理能力。

也就是说：直接从基础模型进行采样，可以实现与强化学习相媲美的单次推理能力！

更重要的是，该算法无需训练、无需数据集、无需验证器，从而可避免了强化学习方法的一些固有弱点，包括为避免训练不稳定而进行的大量超参数搜索、整理多样化且庞大的后训练数据集的需求，以及无法保证获取真实验证器 / 奖励信号的问题。

不得不说，这个结果着实让人惊讶。

基础概念：分布锐化

这个哈佛团队的核心设计基于分布锐化（distribution sharpening）概念。

具体来说，针对一个参考分布（reference distribution），锐化是指对该分布进行重新加权，使得高似然度区域的权重被进一步提升，而低似然度区域的权重被降低，从而使采样大幅偏向于参考分布下的高似然度样本。

基于此，如果经过 RL 后训练的模型实际上只是基础模型的某个锐化版本，就应该能够明确指定一个目标采样分布来实现相同的效果。

也就是说，只要找到这个目标采样分布就能让模型具备推理能力！

使用幂分布进行推理

该团队发现，对于分布 p，一种自然的锐化方法是从幂分布 (power distribution) p^α 中采样。

由于

那么对 p 取幂会增加高似然度序列 (x) 的相对权重，同时减少低似然度序列 (x') 的相对权重。下图给出了可视化演示：

一个众所周知且相关的锐化策略是低温采样 (low-temperature sampling) ，即在每一步都对条件性下一 token 分布进行幂运算：

这里的温度是 τ = 1/α。一个常见的误解是，在 T 个 token 上使用上式进行采样等同于从 p^α 中采样；然而，该团队指出：这在一种微妙但关键的方面是错误的。

命题：低温采样并非从幂分布 p^α 中采样。

对该命题的证明参阅原论文，这里不再详述。

一种理解这种差异的直观方式是：低温采样没有考虑到幂运算如何锐化时间步 t 时的「未来路径」的似然度，而是「贪婪地」平均了所有这些未来的似然度。另一方面，从 p^α 采样则内在地考虑了未来的完成情况，因为它在计算下一 token 预测的权重之前，对所有未来路径进行了幂运算。

这带来了一个结论：幂分布会提升那些未来路径数量少但似然度高的 token 的权重，而低温采样则会提升那些未来路径完成可能多但似然度低的 token 的权重。

下面展示了一个示例：

因此，从 p^α 采样会鼓励采样那些具有较少但似然度更高的「未来路径」的 token，而不是那些具有多个较低似然度完成可能的 token。而这种行为对于推理任务非常有价值。

例如，选择那些平均似然度高但会将输出陷入低似然度个体未来的「错误」token，是关键窗口 (critical windows) 或关键性 token (pivotal tokens) 的典型案例，这是一种少数几个 token 对语言模型输出的正确性有巨大影响的现象。

事实上，已有研究表明，尖锐的关键窗口与推理失败有很强的相关性。相反，从幂分布采样的过程内在地包含了一种偏向，即规划未来的高似然度 token。

Metropolis-Hastings 算法

我们已经从理论上看到从 p^α 采样可以如何帮助提升底层 LLM 的推理能力。基于此，该团队构建了一个算法，以便能够准确从中采样。

给定一个 LLM p，我们可以获取任意序列长度的 p^α 的值；然而，这些值是未归一化的。直接从真实概率进行采样需要对所有序列 (x_0, ..., x_T) 进行归一化，这在计算上是不可行的。

为了解决这个问题，他们采用了一种名为 Metropolis-Hastings (MH) 的马尔可夫链蒙特卡洛 (MCMC) 算法 [Metropolis et al., 1953]，它恰好能实现这个目标：从一个未归一化的概率分布中进行近似采样。

MH 算法使用一个任意的提议分布 (proposal distribution) q (x|x^i) 来选择下一个候选样本 x_{i+1}，从而构建一个样本序列的马尔可夫链

。候选样本 x 以如下概率被接受为 x^{i+1}：

否则，MH 算法设置 x^{i+1} = x^i。这个算法特别方便，因为它只需要由 p^α 给出的相对权重 (因为 A 中的归一化权重会抵消)，并且可以与任何通用但易于处理的采样器 q 配合使用，限制极少。值得注意的是，只要 n 足够大，并且提议分布满足以下 (相当宽松的) 条件，这个过程就会收敛到从目标分布 p^α 中采样：

定义 1: 如果对于在目标分布 p^α 下具有非零质量的任何集合 X，提议分布 q 最终从 X 中采样的概率为非零，则称 q 是不可约的 (irreducible)。如果所导出的样本链不会在固定的步数间隔后返回到同一个样本，则称该提议是非周期的 (aperiodic)。

因此，只需确保提议分布满足不可约性和非周期性，Metropolis-Hastings 算法就能处理剩下的事情。

在实践层面上，我们自然还希望 q (x|x^i) 和其逆过程 q (x^i|x) 都易于计算。

以以下一类随机重采样提议分布为例，见下图：

设 p_prop 是一个提议 LLM。以均匀概率 1/T，从 [1, T] 中选择一个随机位置 t，并使用 p_prop 从索引 t 开始重采样序列。那么转移似然度 q (x|x^i) 就是这次重采样的似然度。注意，在每个候选选择步骤中，我们都有非零概率在任意两个序列 x、x' 之间转换，因为我们总是有可能从 x 的开头就进行重采样。这确保了提议分布既是不可约的也是非周期的。此外，由于对称性，q (x^i|x) 也很容易计算，因为我们可以将 x^i 视为 x 的一个重采样版本。

借助 Metropolis-Hastings 赋予的灵活性，可以为提议 LLM p_prop 选择任何 LLM，并采用任何采样策略 (例如，低温采样)。

使用自回归 MCMC 进行幂采样

直接为 LLM 实现 Metropolis-Hastings 算法，将涉及用一个长度为 T 的采样 token 序列进行初始化，然后通过 (9) 式在许多次迭代中生成新的长度为 T 的候选序列。

然而，由于需要对 LLM 进行重复的、全序列的推理调用，这个过程的计算成本非常高。

实际上，MCMC 算法在实践中的主要缺点是可能存在指数级的混合时间 (mixing time) ，即糟糕的初始化或提议分布选择可能导致需要指数级数量的样本才能收敛到目标分布。如果样本空间维度很高，这个问题会更加严重，而 token 序列空间 X^T 正好表现出这一特点，尤其是对于长序列/大 T 值的情况。

为了解决这个问题，这个哈佛团队提出了一种利用自回归采样顺序结构的算法。

他们定义了一系列中间分布，并从中逐步采样，直到收敛到目标分布 p^α。具体来说，从一个中间分布中采样的样本会启动下一个中间分布的 Metropolis-Hastings 过程，这有助于避免病态的初始化。

该算法的伪代码如下所示：

实验

该团队也通过实验验证了该算法的有效性。

他们为此使用了一套标准的推理基准，涵盖数学、编程和 STEM (MATH500, HumanEval, GPQA)，以及一个评估通用帮助能力的不可验证基准 (AlpacaEval 2.0)。他们对所有方法和基线都进行单次评估；即，基于一个最终的响应字符串。

模型方面，为了展示新采样算法的有效性，他们使用了 Qwen2.5Math-7B、Qwen2.5-7B 和 Phi-3.5-mini-instruct 这些基础模型。对于对比 RL 基线，他们使用了论文《Spurious rewards: Rethinking training signals in RLVR》中的 GRPO 实现，该实现用 MATH 训练集对这些模型进行后训练。

对于其幂采样 (算法 1) 实现，该团队将最大 T 设置为 T_max = 3072 (遇到 EOS token 可能提前终止)，块大小 B = 3072/16 = 192。根据经验，他们发现对于推理任务，α = 4.0 结合一个选择为基础模型并将采样温度设为 1/α 的提议 LLM p_prop 表现最佳。对于 AlpacaEval 2.0，他们发现使用更高温度 (τ = 0.5) 的提议分布能提升性能。

主要结果

主要结果见表 1。可以看到，对于不同家族的基础模型，新提出的采样算法在各种推理和评估任务上，相对于不同基线都实现了近乎普遍的显著的单次准确度和分数提升，例如，让 Phi-3.5-mini 在 HumanEval 提升了 51.9%，让 Qwen2.5-Math 在 MATH500 上提升了 25.2%。

特别要指出，在 MATH500 这个 RL 后训练的领域内任务上，幂采样实现的准确度与 GRPO 获得的准确度相当。

此外，在领域外推理任务上，新算法在 GPQA 上再次与 GRPO 持平，而在 HumanEval 上甚至超越了 GRPO，最高提升达 59.8%。

同样，幂采样在不可验证的 AlpacaEval 2.0 上也稳定地优于基线，这表明新算法带来的性能提升可以推广到可验证性之外的领域。

这个从根本上简单且无需训练的采样算法所取得的惊人成功，凸显了现有基础模型潜藏的推理能力。

优势总结

该团队也对新提出的算法进行了更加细致的分析，总结起来其优势如下：

实现了「两全其美」的性能：幂采样能像 GRPO 一样，生成高似然度、长篇幅的优质推理答案。但与 GRPO 不同的是，它成功避免了「多样性崩溃」。在多次尝试 (pass@k, k>1) 的场景下，其性能远超因答案单一而性能迅速饱和的 GRPO。这解决了强化学习方法以牺牲多样性换取单次性能的长期痛点。
推理时可灵活扩展且参数稳健：该方法提供了一个有效的「测试时计算换性能」的途径。可以通过增加 MCMC 的迭代步数来换取更高的准确率，即使只增加几步，性能提升也十分显著。算法对关键超参数 α (幂指数) 的选择不敏感 (相对稳健)，这使得它在实际应用中更容易部署和调优。
计算成本具有可行性：虽然增加了推理时的计算量，但其总成本大致只相当于进行一轮 GRPO 训练，这意味着它是一种无需重新训练模型、成本可控的性能提升方案。

.....

#Traning-Free GRPO

X上63万人围观的~：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

GRPO 的核心思路很简单却强大：

对同一个问题，同时生成多条解答路径（rollout）

给这些路径打分，比较组内优劣

再根据优势信号来更新模型参数，让模型越来越偏好高质量解法

这种「多路径并行 + 组内优势」的机制，虽然比传统 PPO 等方法更加简洁，但仍然需要优化模型参数，💰 太贵了！

在 32B 量级的模型上训练一次 RL，就可能要花掉上万美元
如果是 600B 级别的超大模型，成本和工程难度更是上天

这让 GRPO 虽然强大，却几乎只能由巨头来玩，中小团队和个人开发者根本「玩不起」。

能不能不改模型参数，也来跑一遍 GRPO？

腾讯优图的一篇最新论文就提出了一个非常有意思的答案：既然更新参数这么贵，那就不更新参数，直接把 GRPO 的「学习过程」搬进上下文空间！

论文标题：Training-Free Group Relative Policy Optimization
arXiv 链接：https://arxiv.org/abs/2510.08191
GitHub 地址：https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

Training-Free GRPO 是把 GRPO 训练的整个范式迁移到了上下文学习之中：

训练集上多轮迭代学习，然后在独立的测试集上验证
每轮中，对同一道题目并行生成多条解答（Rollout）
对比组内不同解法的差异，提取文本型组内优势（Semantic Group Advantage），对齐 GRPO 里的数值型组内优势
根据这些文本优势优化一个文本型 LoRA，对齐 GRPO 里的参数型 LoRA

举个例子，对于训练集里这道数学几何题，模型会生成多个不同的解答路径（Rollout），可能会出现不同的解题路径，有的做对了有的做错了。

随后，模型总结不同解法的过程与正确性，从而比较同一组内的不同解答。这个过程自然提炼出文本型组内优势：总结出有的做法为什么对，有的做法为什么错。比如例子里：

错误的解法不仅设错方向，还没有做条件约束检查
成功的解法则正确了设定坐标方向，也系统化验证了所有条件

在一个迭代里，得到每道题的文本型组内优势后，模型就把当前批次的优势都更新文本型 LoRA 里，也就是对经验库进行增删改，沉淀学习到的经验。

实验效果

在数学推理上，仅用 100 个训练样本，花费约 8-18 美元，就能在已经足够强大的 671B 模型上继续提升性能。

无论是否采用代码工具（CI，code interpreter）帮助解题，在 AIME 榜单上的 Mean@32 指标都能实现提升。

令人惊喜的是，在三个轮次中，训练集和测试集的平均工具调用次数均有所减少。这表明 Training-Free GRPO 不仅能够鼓励正确的推理和行动，还能教会代理找捷径，更高效明智地使用工具。

而在网页搜索场景中，Training-Free GRPO 同样无需更新模型参数，即可在 DeepSeek-V3.1-Terminus 强悍水平之上，实现了 4.6% 的 Pass@1 显著提升。

为什么需要 Training-Free GRPO？

保留 GRPO 的强化学习优势

多路径探索、group advantage、多轮迭代、完全独立的训练与测试集……这些 GRPO 的精华一项不少，全部在上下文层面重现了出来。

成本暴降

不用训练模型参数，仅需少量数据，并且全程只靠 API 随用随付！

只需 8～18 美元以及 100 条训练数据，就能在 671B LLM 上跑完多轮的强化学习训练！远远低于 32B 模型的训练成本。

泛化更好

与 Self-Refine 这类就地改写不同，Training-Free GRPO 是在独立数据集上多轮迭代训练的，对测试集里的 Out-of-Domain (OOD) 数据都有显著提升。

并且，参数微调后的 32B 级别模型往往只能胜任特定窄域任务，可能需要多个专用模型来覆盖完整业务需求，显著增加了系统复杂度和维护成本。而 Training-Free GRPO 只需要一个统一的模型和 API 就可以泛化到不同的场景！

小结：RL 不一定非得有梯度

过去我们默认，强化学习就意味着参数更新。虽然前期有一些上下文空间优化的探索如 Self-Refine、Reflexion、TextGrad 等，但 Training-Free GRPO 与他们不同，完全对齐了参数空间 RL 训练的流程和细节：

把 GRPO 的「独立训练集 + 多轮迭代 + 并行 Rollout + 组内优势」这套 RL 训练范式，整体迁移到上下文空间，在不训练模型的情况下，也能获得强化学习效果。
这让超大模型的 RL 优化变得廉价、灵活、可持续，也给每个开发者的小业务提供了用得起的新方案。

本文方法已开源，欢迎 Star 和试用！

预告：Training-Free GRPO 将作为一个新功能集成到 Youtu-Agent 框架中，帮助开发者们进一步提升各种自定义场景的效果。

注：成本计算基于 DeepSeek API 官方定价，实际可能因使用情况而有所波动。

.....

#R-HORIZON

长程推理时代来临，复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

陆毅，复旦大学自然语言处理实验室硕士生，在 ACL、EMNLP、COLM、NeurIPS 等顶会发表论文十余篇，LongCat Team 核心成员，研究方向为大模型的复杂推理和长序列建模，指导老师为桂韬老师。

郭林森，硕士毕业于东南大学，在 NAACL、EMNLP、Recsys 等会议发表论文多篇，目前就职于美团，LongCat Team 核心成员，研究方向为大模型评测与数据价值挖掘。

王嘉宁，获得华东师范大学博士学位，曾前往 UCSD 访问学习，在 ACL、EMNLP、AAAI、ICLR 等顶会发表论文数十篇，目前就职于美团，LongCat Team 核心成员，研究方向为大模型训练与复杂推理。

研究背景：从「单步推理」到「长链决策」

OpenAI o1、DeepSeek-R1 等大型推理模型（LRMs）的出现，标志着 AI 推理能力进入了「测试时扩展」的新纪元。通过长链推理 Long Chain-of-Thought（CoT），这些模型在数学推理、代码生成、智能体任务等领域取得了令人瞩目的突破。

然而，当前的训练与评测范式存在一个根本性的局限：几乎所有主流 Benchmark（如 MATH500、AIME）都聚焦于孤立的单步问题，问题之间相互独立，模型只需「回答一个问题，然后结束」。但真实世界的推理场景往往截然不同：

一个软件工程师需要连续调试多个相互依赖的代码模块
一个数学研究者需要基于前序定理推导后续结论
一个智能助手需要在多轮对话中逐步完成复杂任务规划

这些场景要求模型具备跨问题的长链推理能力 —— 不仅要解决单个问题，还要在多个相互关联的子问题间维持推理连贯性、合理分配思考资源、进行跨步骤的反思与纠错。

这引出了一个核心问题：大型推理模型的长链推理能力边界究竟在哪里？

现有评测无法回答这个问题，传统训练数据也无法培养这种能力（如图所示，模型在长程推理场景下性能下降严重）。

R1 系列模型在长程推理场景下理论准确率和实际准确率的差异

为填补这一空白，复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

论文标题： R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
论文地址： https://arxiv.org/abs/2510.08189
项目主页： https://reasoning-horizon.github.io
代码地址： https://github.com/meituan-longcat/R-HORIZON
数据集： https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879

R-HORIZON：揭开推理模型「能力地平线」

核心创新：Query Composition 方法

R-HORIZON 提出了一种简洁而强大的问题组合（Query Composition）方法，通过建立问题间的依赖关系，将孤立任务转化为复杂的多步骤推理场景。

以数学任务为例：

1. 提取关键信息：从多个独立问题中提取核心数值、变量等信息

2. 建立依赖关系：将前一个问题的答案嵌入到后一个问题的条件中

3. 形成推理链：模型必须按顺序正确解决所有问题才能得到最终答案

这种方法具有三大优势：

可扩展性：可灵活控制推理链长度（n=2, 4, 8...）
可控性：可灵活设定问题间的依赖关系
低成本：基于现有数据集即可构建，无需额外标注

基于这一方法，我们构建了长链推理的评测基准 R-HORIZON Benchmark，用于系统性评估 LRMs 在多步推理场景下的真实能力；同时，我们还构建了长链推理的训练数据，通过强化学习（RLVR）训练来提升模型的长链推理能力。

R-HORIZON 方法示意图 —— 从单一问题到复杂推理链的转化过程以及 R-HORIZON 的应用场景

R-HORIZON Benchmark：全面的长链推理评测基准

基于 Query Composition 方法，我们构建了 R-HORIZON Benchmark，涵盖 6 大代表性数据集：

核心发现：顶级模型的「推理断崖」

我们评测了 20+ 个主流 LRMs（包括 o4-mini、Claude-Sonnet-4、DeepSeek-R1 等顶级商业模型以及开源模型），结果揭示了一个令人震惊的现象：即使是最先进的模型，在长链推理场景下也会出现性能断崖式下降。

关键发现：

普遍性能衰退：所有模型随着问题数量增加都出现显著性能下降。DeepSeek-R1 在 AIME25 单问题场景下准确率达 87.3%，但在 5 个组合问题场景下暴跌至 24.6%
模型规模影响：更大的模型对多步推理挑战展现出更强的韧性
任务依赖性衰退：代码生成任务相比数学任务表现出更陡峭的性能下降；许多推理模型在网页搜索场景中失去了工具调用能力

R-HORIZON Benchmark 评测结果 —— 所有模型均出现显著性能衰退

深度分析：推理模型的三大瓶颈

为了理解性能断崖背后的原因，我们进行了深入的机制分析，发现当前 LRMs 存在三个关键瓶颈：

1. 有效推理长度受限

随着相互依赖问题数量的增加，LRMs 难以维持其性能。实际准确率与理论准确率之间的差距显著扩大，表明模型无法在更长的推理范围内保持原有性能。

深入分析发现：

模型错误稳定在特定的上下文范围内
7B 模型的主要错误范围在 (4-6K tokens)
32B 模型将范围扩展到 (8-10K tokens)
这表明更大的模型拥有更长的有效推理边界

R1-Qwen-7B 和 R1-Qwen-32B 在准确率和错误位置上的分析

2. 反思机制高度局部化

我们分析了模型的「反思」行为，发现：

模型的反思频率随着问题数量增加而上升并趋于收敛
超过半数的复杂任务完全缺乏长程反思（跨越当前问题的反思）
这表明当前 LRMs 的反思机制高度局部化，不足以支撑长链场景

MATH500 数据集上的反思行为分析

3. 思考预算分配失衡

最令人意外的发现是：包括 DeepSeek-R1 在内的主流 LRMs 都无法有效地在推理范围内分配思考预算。

模型倾向于过度分配 tokens 给早期推理阶段
未能合理地将资源分配给后续的关键问题
这种失衡严重影响了整体推理链的完成质量

不同组合问题数量下各模型的思考预算分配

R-HORIZON 训练：重塑推理模型的能力边界

发现问题只是第一步，我们进一步探索：能否通过使用组合数据进行强化学习训练来突破这些瓶颈？

RLVR with R-HORIZON：用长链数据训练推理模型

我们使用 R-HORIZON 构建的长链推理数据并使用 GRPO 算法进行训练，训练策略：

基于主流 RLVR 算法 GRPO 进行训练
使用 R-HORIZON 组合数据（n=2, n=4）
设计不同的奖励函数进行对比实验

突破性成果：双重性能提升

实验结果令人振奋：R-HORIZON 训练不仅显著提升长链任务表现，连单问题性能也大幅增强。

加粗数字表示该列最佳成绩

不同训练配置下的性能对比。"Origin" 表示单问题场景，"n=X" 表示 X 个组合问题场景，"Multi" 表示多问题场景的平均性能

关键发现：

1. 双重性能提升：使用 n=2 组合问题训练，不仅大幅提升多步推理性能（AIME24 n=2 +17.4 分），单问题性能也显著增强（AIME24 单题 +7.5 分）

2. 可扩展复杂度：增加组合复杂度（n=4）增强了模型处理需要更多推理步骤问题的能力，在 MATH500 (n=8) 上达到 50.6%

训练带来的质变

R-HORIZON 训练不仅提升了性能数字，更带来了推理机制的深层改变：

更高效的推理长度：

训练显著改善了模型在组合任务上的性能，展现出更好的泛化到更长推理链的能力，同时缓解了「overthinking」现象（生成更短、更高效的回答）。

更合理的预算分配：

模型学会了在多步问题中进行更合理的 token 预算分配，不再「重头轻尾」。

更长程的反思能力：

R-HORIZON 促进了模型进行更长程反思的频率增加，直接改善了长链推理性能。

图：使用标准数据集和组合数据集进行强化学习的效果分析

结论与展望：开启长链推理新纪元

R-HORIZON 的推出，标志着大型推理模型研究进入了一个新的阶段 —— 从「能解决什么问题」到「能走多远」的范式转变。

技术贡献

首个长链推理评测基准：系统性揭示了 LRMs 的能力边界，包括有效推理长度、反思范围和思考预算分配的局限性
可扩展训练范式：提供了低成本、高效率的能力提升路径，通过 Query Composition 方法实现可控的长链推理数据构建
深度机制分析：为未来的推理模型指明了改进方向，揭示了当前模型在长链推理中的三大瓶颈

开放生态

R-HORIZON 框架已全面开源，包括：

完整评测代码与 Benchmark 数据
训练数据和训练代码
数据构建流程
详细文档与使用教程

期待与全球研究者携手，共同推动下一代推理模型的发展，让人工智能在现实世界中展现出更卓越的长链推理能力。

资源链接：

Paper：https://arxiv.org/abs/2510.08189

Project Page：https://reasoning-horizon.github.io

GitHub：https://github.com/meituan-longcat/R-HORIZON

Dataset：https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879

.....

#Thinking with Camera

当空间智能大模型“与相机共思”：从任意视角理解和创造世界的统一多模态架构

Puffin首次把“相机理解+相机生成”塞进统一多模态大模型：用几何对齐视觉编码器+“与相机共思”语言链，在400万三元组上训练，任意视角预测/生成一键完成，代码数据全开源。

论文标题：Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

作者单位：S-Lab, 新加坡南洋理工大学；商汤科技；美国密歇根大学；德国马普所

论文链接：https://arxiv.org/abs/2510.08673

项目主页：https://kangliao929.github.io/projects/puffin/

代码链接：https://github.com/KangLiao929/Puffin

百万级图片-文本-相机三元组数据集：https://huggingface.co/datasets/KangLiao/Puffin-4M

感兴趣的伙伴可以观看视频详细了解

，时长03:08

图一：展示我们模型多样化能力的示意图。模型统一了以相机为中心的多模态理解与生成，支持空间想象，并实现灵活的跨视角应用如世界探索等

01 研究动机

（前言）人类如何观察并理解世界？我们会根据环境线索在空间中动态调整视觉系统，通过改变三维朝向和焦距，保持对周围环境的灵活感知。这样的能力使我们能够从任意视角中理解场景、猜想视野外的环境，并在脑海中重现一个具备自由视点的真实世界。

对机器而言，相机是与物理世界交互和实现空间智能的重要接口。一方面，通过图像理解相机几何，机器能够从二维投影中恢复复杂的三维结构，进而指导下游的自主定位和导航任务；另一方面，通过调节内外参数，相机还能提供灵活的物理控制，帮助空间内容的生成，从任意视角模拟世界的样貌。

然而，目前上述两类任务大部分都是被独立研究，两者之间潜在的有效关联尚未被充分探索。此外，现有的统一多模态大模型往往受限于固定视角的约束，只能在简单的前视视角(front-view)条件下生成和理解场景，难以在视角多变的真实世界中应用。

02 解决方案

为此，我们首次尝试在统一框架下融合以相机为中心（camera-centric）的理解与生成任务，将统一多模态大模型这一范式拓展至专注相机几何的空间智能领域。如下图，我们提出的Puffin模型结合了语言回归与基于扩散模型的生成能力，能够从任意视角和方向理解并创造场景。通过我们设计的指令微调阶段，Puffin还能灵活拓展至复杂的跨视角理解与生成任务。

图二：我们提出一个以相机为中心的统一多模态大模型，能够在相机维度上扩展空间感知能力。虚线框内的部分表示在指令微调阶段进行的跨视角理解与生成过程，例如空间想象与世界探索等能力

在理解任务的网络设计方面，一种直接的方法是对包含视觉编码器与语言模型的现有多模态大模型进行微调，但这种朴素策略存在两点局限性：

现有多模态大模型中的视觉编码器主要为识别任务设计，其提取的语义特征较为抽象、压缩程度大，缺乏与结构细节相关的几何保真度；
现有多模态大模型中的语言模型部分几乎不具备空间感知的先验知识，难以适应到以相机为中心的下游任务。因此，这类多模态模型微调会导致性能瓶颈，甚至表现不如纯视觉方法。

为解决上述问题，我们引入了一个几何对齐的视觉编码器，通过语义教师网络（如 CLIP、SigLIP）与视觉教师网络（如 DINO、SAM）的双重蒸馏获得。该编码器能够在保持几何保真度的同时，兼具强语义理解能力。随后，我们采用渐进式解冻与联合微调的方式，将该编码器与语言模型逐步对齐。这种分阶段优化策略使得模型在底/中层结构线索与高层语言推理之间建立紧密联系。

在生成任务的网络设计方面，我们沿用MetaQueries架构并设计了一个连接模块，通过一组可学习的queries，将文本描述和相机参数对应的LLM 隐式状态映射为可被扩散模型理解的条件信号。为更好地利用相机几何信息，除了由数值参数离散化得到的相机离散token外，我们还引入了像素级的相机透视场作为连续的相机潜在变量，从而在图像生成中实现更精细的空间控制。

03 与相机共思

与语言或图像不同，相机模型及其物理参数抽象且不直观——它们以数值形式描述视场、方向或投影关系，而非语义内容。这种差异导致在多模态模型中融入相机信息时会出现模态鸿沟（modality gap）。如下图（左）所示，以往的视觉方法主要通过提取或学习几何结构或语义信息等表征来从图像中估计相机几何。然而，上述表征往往侧重于局部的低层或中层视觉特征，难以捕捉到整体且连贯的空间概念。

本研究并非追求更优的表征设计或学习，而是从另一角度出发——将相机理解为语言。如下图（右）所示，我们提出了通过多模态大模型“与相机共思”（thinking with camera）的概念。该方法在几何语境下对不同相机参数进行解耦，并在空间约束的视觉线索与专业摄影术语之间建立关联。随后，模型在空间推理过程中进行分析和思考，并将相机理解结果输出在标签中。

图三：提出通过多模态大模型实现的“与相机共思（thinking with camera）”概念。该方法在几何语境下对不同相机参数进行解耦，在空间约束的视觉线索（如mask区域）与专业摄影术语之间建立关联，进而形成空间推理思维链

“与相机共思”（thinking with camera）空间推理过程中的三大核心要素：

空间约束的视觉线索：三维世界受物理规律支配，重力与人工设计共同塑造了稳定的结构分布，为空间感知提供了强有力的先验。例如，天空、天花板、地面、沙滩等少纹理区域虽缺乏视觉特征，却蕴含着垂直方向的规律性，对俯仰角（pitch）估计至关重要。同样，视场角（FoV）的估计依赖于对空间构图的感知，包括前后景比例、物体尺度与深度分布等。虽然这些属性难以从纯视觉表征中直接推断，但多模态大模型已将其隐式地编码为知识先验。因此，我们将这些具备空间约束的视觉线索嵌入训练过程使用的“思维标签”（thinking captions）中，使模型能够对相机几何进行显式的空间推理。
专业级摄影术语：现有的多模态大模型具有过度抽象的语义表示，而相机参数的数值又过于细粒度，难以被精确理解。作为一种更具实践性的替代方式，专业摄影术语（如 close-up_、_tilt-up_、_Dutch angle 等）被广泛用于标注，并与多模态大模型的知识体系高度契合。因此，我们将这些术语作为中间监督信号，用以自然地桥接底/中层的相机几何与高层的多模态推理。这些术语可视为相机参数的量化抽象形式，与场景文本描述相结合，使整体空间布局能够以语言形式被感知与表达。
几何语境：我们在几何语境下对不同相机参数（roll, pitch, FoV）进行解耦，并将其与特定的空间视觉线索对齐，如天空、前景构图以及物体层级的深度排序等，从而对应到各类专业摄影术语。通过将数值属性锚定到具备语义意义的描述词，我们的框架在抽象视觉特征与可解释的几何之间建立了桥梁。最终的相机信息即通过这种结构化的空间推理过程进行预测。

04 共享的空间思维链

与理解任务不同，可控图像生成需要更复杂的跨模态对齐与精细的视觉细节合成。如上所述，相机参数数值对于当前多模态大模型而言过于细粒度，难以有效解析，从而无法准确捕捉相机可控生成所需的真实空间分布。

为此，我们设计了一种结合视觉细节分析与推理的分步生成流程：模型首先根据给定的相机空间信息从原始文本描述中推断潜在的视觉线索，然后将这一文本推理阶段作为语义规划，用于引导图像生成。此外，数值化相机参数被转化为更适合模型理解的专业摄影术语。我们发现，上面的步骤与相机理解中的推理过程自然对齐。因此，我们在可控生成与理解之间引入了共享的思维链机制，统一了多模态任务之间的思考方式。如下图所示，当给定较小的俯仰角和“室内”描述时，我们的模型会将参数角度值转化为摄影术语（如small tilt-down），并推测出窗台等潜在的视觉线索，从而辅助生成更精确的空间结构。

图四：在可控图像生成任务中引入与理解任务共享的思维链机制，同样可以进行 “与相机共思“（thinking with camera）

05 Puffin-4M数据集

在多模态空间智能领域，能够同时覆盖视觉、语言与相机模态的数据集与基准仍极为稀缺。为弥补这一空缺，我们提出 Puffin-4M ——一个包含约400 万图片-语言-相机三元组的大规模高质量数据集。数据集的示例图如下所示，其中相机配置部分我们考虑了常用小孔相机模型下的标准内外参数（roll, pitch, yaw, FoV）。

图五：Puffin-4M示例图

下图展示了Puffin-4M数据集的构建流程，其中包括四个阶段：360°全景数据的收集与预处理、2D透视图像的渲染生成、场景描述与空间推理打标，以及跨视角场景的扩展。

图六：Puffin-4M数据集构建流程

除了上述训练集以外，我们还构建了两个评测基准数据集：Puffin-Gen和Puffin-Und，分别为相机可控生成和相机理解提供更加具备挑战性和综合性的验证标准。

上述数据集均已开源：https://huggingface.co/datasets/KangLiao/Puffin-4M

06 实验结果

如下所示，我们以相机为中心的统一多模态大模型Puffin与现有的专业级理解或生成模型相比，在多个数据集上表现出极具竞争力的性能，并在大部分数据集上超越现有模型。

表一：与现有方法的定量对比结果

我们的相机理解结果及其相机透视场可视化如下：左侧为AIGC 图像（GTP-4o），右侧为真实世界的摄影图像。其中，相机透视场（latitude和up vector）由预测的相机参数转换得到。可以看出，我们的方法在各类场景中表现出不错的鲁棒性。

图七：相机理解可视化结果

我们的相机可控生成结果如下。可以看出，我们的方法在各类相机配置和场景描述中均表现出合理的空间生成能力。

图八：相机可控生成可视化结果

07 拓展应用

我们在图九中展示了Puffin多样化的拓展能力。首先，Puffin 能够通过精确预测相机参数，在自然场景图像中辅助虚拟三维物体的插入。此外，通过指令微调（Instruction Tuning），我们的模型可以灵活扩展至多种跨视角任务，如空间想象、世界探索和摄影指导等。其中在世界探索任务中，我们对初始视角与生成视角进行了三维重建并可视化（利用VGGT），结果显示生成结果在空间结构上保持了良好的一致性。更多拓展应用结果请参考论文的附录部分。

图九：拓展应用。我们的模型能够通过指令微调*（Instruction Tuning），灵活拓展至多个跨视角的生成和理解任务

08 总结与未来工作

我们提出了一个能够在任意视角下同时进行以相机为中心的理解与生成的统一多模态大模型——Puffin。以往研究通常将这两项任务视为独立问题分别探索，然而它们本质上是空间智能的两个互补基石：前者负责解码世界的几何结构，后者则将其重新编码为可控且空间一致的视觉内容。不同于以往局限于简单前视视角的统一多模态模型，Puffin 通过“将相机理解为语言”并引入“与相机共思（thinking with camera）”的理念，消除了视觉-语言-相机模态间的鸿沟。

我们认为，统一以相机为中心的理解和生成可以将感知和合成锚定到相机几何的共享表征上，从而使机器能够更全面、更交互地进行空间推理。这种统一的模型为稳健的空间智能奠定了基础，并促进了更具灵活性和创造性的3D应用发展。在未来，我们计划进一步提升 Puffin 的跨视角能力，并将其扩展至以相机为中心的视频生成与理解，以促进在动态与沉浸式场景中的更广泛应用。

.....

#数十名科学家签署联名信，反对加州AI限制法案

AI真的已经危险到要如此监管的地步了吗？

在创新的热土硅谷，李飞飞、吴恩达等 AI 科学家正在与监管部门展开一场关于安全与创新的拉锯战。

这场拉锯战的核心是一个名叫 SB-1047 的法案。该法案的全称是「Safe and Secure Innovation for Frontier Artificial Intelligence Act（《前沿人工智能模型安全创新法案》）」，试图为高风险的 AI 模型建立明确的安全标准，以防止其被滥用或引发灾难性后果。

该法案于今年 2 月份在参议院被提出，随后引起了很大的争议。很多科学家认为，法案的条款过于不合理，将对科技创新造成毁灭性的影响。

法案链接：https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=202320240SB1047

具体来说，该法案旨在从模型层面对人工智能进行监管，适用于在特定计算和成本阈值之上训练的模型。

模型覆盖范围如下：

1、使用超过 10^26 次整数或浮点运算的计算能力进行训练的人工智能模型，其成本超过一亿美元（100,000,000 美元），该成本是根据开发者合理评估的训练开始时云计算的平均市场价格计算得出的。

2、利用等于或大于 10^25 次整数或浮点运算三倍的计算能力，对范围内的模型进行微调而创建的人工智能模型。

这一范围基本覆盖了现在市面上所有主流的大型模型。如果法案通过，这些模型都将被定义为存在「潜在危险」或需要额外监督。

法案还要求模型开发者对其模型的下游使用或修改承担法律责任。在训练开始之前，开发人员需要证明他们的模型不会启用或提供「危险功能」，并实施一系列保护措施来防止此类使用。这将阻碍开源社区的发展。

监督新法律执行的将是一个「前沿模型部门（frontier model division）」，这是一个新成立的监督和监管机构。该机构将制定安全标准并就人工智能法律提供建议，向该机构歪曲模型的功能可能会使开发人员因伪证而入狱。

法案中还加入了吹哨人保护条款，保护和鼓励 AI 开发实体内部的举报者，确保员工可以在不受报复的情况下报告企业的不合规情况。

如果法案获得通过，州长 Gavin Newsom 的一个签名就可以将其纳入加州法律。a16z 普通合伙人 Anjney Midha 表示，如果这项法案在加州获得通过，将为其他州树立先例，并在美国国内外产生连锁反应 —— 本质上对创新状况带来巨大的蝴蝶效应。

在太平洋夏令时间 8 月 7 日早晨，相关部门将举行关于该法案的听证会。留给科学家们的抗议时间已经不多了。因此，李飞飞亲自撰文，陈明法案利害。还有些科学家正在签署一封联名信，以阻止法案通过。

李飞飞的文章发表在《财富》（Fortune）网站上。

李飞飞撰文抨击 SB-1047

李飞飞在文章中表示：「加州的 SB-1047 将产生重大而意想不到的后果。如果通过成为法律，SB-1047 将损害正在萌芽的人工智能生态系统。SB-1047 将不必要地惩罚开发人员，扼杀开源社区，并阻碍人工智能学术研究，同时无法解决其旨在解决的真正问题。」

她写道：

首先，SB-1047 将过度惩罚开发者并扼杀创新。如果人工智能模型被滥用，SB-1047 要求责任方和该模型的原始开发者承担责任。每个人工智能开发人员（尤其是崭露头角的程序员和企业家）不可能预测到其模型的每种可能用途。SB-1047 将迫使开发人员退步并采取防御行动 —— 这正是我们试图避免的。

其次，SB-1047 将束缚开源开发。SB-1047 要求所有超过特定阈值的模型都包含「终止开关」，这是一种可以随时关闭程序的机制。如果开发人员担心他们下载和构建的程序会被删除，他们在编写代码和协作方面就会更加犹豫。这个终止开关将摧毁开源社区，这是无数创新的源泉。其影响不限于人工智能领域，而是在从 GPS 到 MRI 到互联网本身的各个领域。

第三，SB-1047 将削弱公共部门和学术人工智能研究。开源开发对于私营部门很重要，但对于学术界也至关重要。如果没有协作和对模型数据的访问，学术界就无法进步。如果我们的机构无法获得适当的模型和数据，我们将如何培训下一代人工智能领导者？终止开关甚至会进一步削弱学生和研究人员的努力，与大型科技公司相比，他们在数据和计算方面已经处于劣势。当我们应该加倍加大公共部门人工智能投资时，SB-1047 将为学术人工智能敲响丧钟。

最令人担忧的是，该法案并未解决人工智能进步的潜在危害，包括偏见和深度伪造（deepfake）等等。相反，SB-1047 设置了一个任意阈值，调节使用一定计算能力或花费 1 亿美元训练的模型。这项措施远非提供保障，只会限制包括学术界在内的跨部门创新。如今，学术人工智能模型低于这一门槛，但如果我们要重新平衡私营和公共部门人工智能的投资，学术界将受到 SB-1047 的监管。我们的人工智能生态系统将会因此而变得更糟。

SB-1047 的限制过于武断，我们必须采取相反的做法。

我并不反对人工智能治理。立法对于人工智能的安全有效发展至关重要。但人工智能政策必须赋能开源开发，提出统一且合理的规则，并建立消费者信心。SB-1047 未达到这些标准。

数十位科学家联名反对

针对 SB-1047，除了李飞飞，由加州大学 7 个校区的师生以及来自其他 20 多个机构的研究人员组成的团体也在积极行动。他们共同起草并签署了一封反对 SB-1047 的公开信，从研究者的角度出发，陈述该法案对加州人工智能研究和教育目标的损害。

联名信从以下几方面展开论述 SB-1047 的不合理性：

1、法案会给开源模型的发布带来「寒蝉效应」，从而损害研究

法案中要求对「前沿模型」进行「安全审核」和具备「完全关闭」能力，可能会严重阻碍开源和开放权重模型的发布。这些严格的规定对于私有实体控制的专有模型来说可能更易于实现，而对于非营利组织或大学联盟使用的开放模型则较为困难。法案中关于安全展示和审核的条款表述不够具体，依赖于可能尚未存在且可能缺乏科学严谨性的测试。这种审计的潜在成本对于有盈利产品的商业实体来说可能容易承担，但对于像 Meta 的 LLaMA 系列这样的商业实体的科学性开放发布，或是由非营利组织或大学联盟训练的开放模型，情况可能并非如此。

由于这些繁琐的限制，开源模型的开发者可能选择在加州或美国之外构建系统，并在避免责任的前提下发布其模型。在这种情况下，不顾合规的私人行为者可能会秘密使用这些模型，而受到公共工作性质约束的学术研究人员将被排除在外，这促使他们更改研究主题或转移到不侵犯其学术自由的司法管辖区。开源模型的可获取性对于现代学术 AI 研究至关重要，因为它们使学术界能够探索模型的工作原理、训练过程中的能力提升以及如何进行改进和破解。

2、人工智能风险预测与「能力」评估存在不科学性

作为人工智能、机器学习和自然语言处理领域的专家，这些研究者强调：SB-1047 中提到的评估模型风险的建议方法非常值得怀疑。科学界就语言模型或其他前沿人工智能系统是否以及如何对公众构成威胁尚未达成共识。

3、对开源模型的保护不足

尽管法案提到未来可能对开源模型提供特例，但由于参数数量的快速增长和计算成本的降低，现有的保护措施可能难以持续。在没有强有力的保护措施的情况下，这些模型面临的后果可能很快就会显现。此外，性能相当的小型模型相比大型模型需要更高的计算成本。因此，法案中的修正案预计无法缓解对开源模型发布的负面影响，而严格的报告和审核要求还将不必要地影响研究活动。

4、对学生的就业安置和职业成果的担忧

SB-1047 未来可能会阻碍对人工智能感兴趣的学生进一步学习相关知识，甚至可能会阻止新人才进入计算机科学等关键领域。此外，随着科技行业从大公司向初创公司的转变，额外的监管障碍可能会通过支持更大、更好的企业来削弱新兴创新者。这种转变可能会缩窄学生的职业道路。

联名信部分学者签名。

除了公开信，还有一些研究者选择在社交媒体发声。其中，一位系统生物学家指出，SB-1047 就像在我们还不知道病原体是什么、何时会感染我们以及感染会发生在哪里之前就激活了炎症反应。

此前，吴恩达也多次就此事发声。他认为，监管机构应该监管应用而不是技术。例如，电动机就是一项技术。当我们将其放入搅拌机、电动汽车、透析机或制导炸弹中时，它就成为了一种应用。想象一下，如果法律规定，当任何人以有害的方式使用电机时，电机制造商都要承担责任。那电机制造商要么停产，要么将电机制造得非常小，以至于对大多数应用来说毫无用处。如果我们通过这样的法律，可能会阻止人们制造炸弹，但我们也会失去搅拌机、电动汽车和透析机。相反，如果我们关注特定的应用，就可以更合理地评估风险并判断如何确保它们的安全，甚至禁止某些类型的应用。

AI 真的已经危险到要如此监管的地步了吗？对此，你怎么看？

参考链接：https://a16z.com/sb-1047-what-you-need-to-know-with-anjney-midha/

https://drive.google.com/file/d/1E2yDGXryPhhlwS4OdkzMpNeaG5r6_Jxa/view

https://fortune.com/2024/08/06/godmother-of-ai-says-californias-ai-bill-will-harm-us-ecosystem-tech-politics/?abc123

.....

#Transformer内部运作原理

七年前，论文《Attention is all you need》提出了 transformer 架构，颠覆了整个深度学习领域。

如今，各家大模型都以 transformer 架构为基础，但 transformer 内部运作原理，仍是一个未解之谜。

去年，transformer 论文作者之一 Llion Jones 宣布创立人工智能公司 Sakana AI。近期，Sakana AI 发表了一篇题为《Transformer Layers as Painters》的论文，探究了预训练 transformer 中的信息流，并针对仅解码器和仅编码器冻结 transformer 模型进行了一系列实验。请注意，该研究没有对预训练模型进行任何类型的微调。

论文地址：https://arxiv.org/pdf/2407.09298v1

该研究认为 transformer 的内部机制（特别是中间层）可以类比画家作画流水线来理解。

作画流水线通常是将画布（输入）传递给一系列画家。有些画家擅长画鸟类，而另一些画家则擅长画轮子。每个画家从其下一级画家那里收到画布，然后其决定是否给画作添加一些笔画，或者只是将其传递给其上一级画家（使用剩余连接）。

这个类比并不是一个严格的理论，而是一个思考 transformer 层的工具。受这个类比的启发，该研究测试验证了一些假设：

各层是否都在使用相同的表征空间？
所有层都是必要的吗？
中间层都执行相同的功能吗？
层的顺序重要吗？
这些层可以并行运行吗？
对于某些任务来说，顺序是否比其他因素更重要？
循环有助于层并行吗？
哪些变体对模型性能影响最小？

该研究对预训练 LLM 进行了一系列实验，其中包括试验标准 transformer 执行策略的变化，并在仅解码器 (Llama) 和仅编码器 (BERT) 模型的各种基准上测量这些变化对模型性能的影响。

各层是否都在使用相同的表征空间？

为了回答不同层是否使用相同的表征空间，作者测试了 Transformer 在跳过特定层或切换相邻层的顺序时是否具有稳健性。例如，在 Llama2-7B 中，第 6 层通常期望接收第 5 层的输出。如果给第 6 层以第 4 层的输出，它是否会出现「灾难性」的行为？

在图 2 中，我们可以看到，除了第一层和最后几层之外，Llama2-7B 的各层对跳层或切换层都相当稳健。

该实验表明，中间层共享一个表征空间，且与「外围层」（第一层和最后几层）拥有不同的表征空间。为了进一步验证这一假设，作者效仿之前的研究，测量了基准中模型（Llama2-7B、Llama2-13B 和 BERT-Large）不同层的隐藏状态激活之间的平均余弦相似度。图 3 显示了所有中间层之间的一致性。

这表明该模型可能具有「开始」、「中间」和「结束」层的三个不同的表征空间。回答问题 1：是的，中间层似乎共享一个共同的表征空间。

所有层都是必要的吗？

为了进一步测试中间层的重定向空间是否真正共享（除了具有接近的余弦相似度之外），该研究尝试了「跳过层」，即将第 N 层的输出直接发送到第 N + M 层（其中 M > 1）的输入中，从而「跳过」M − 1 层，如图 1a 所示。该实验是为了看看第 N + M 层是否可以理解第 N 层的激活，尽管它仅根据从第 N + M − 1 层发来的输入进行训练。图 4 显示，Llama2-7B 和 BERT-Large 在许多基准测试上性能均出现适度下降。回答问题 2，是否所有层都是必要的：

不，至少可以删除一些中间层而不会发生灾难性故障。

中间层都执行相同的功能吗？

如果中间层都共享一个共同的表征空间，这是否意味着除此之外的中间层是多余的呢？为了测试这一点，研究者们重新运行了前一子节中的「跳过」实验，他们将中间层的权重替换为中心层的权重，有效地在被替换的每一层上循环 T - 2N + 1 次，其中 T 是总层数（Llama2-7B 为 32 层，BERT-Large 为 24 层）。

如图 5 所示，可以观察到，随着被替换层数的增加，模型在基准测试的得分迅速下降。从后文的图 11 看来，这种替换层的做法比研究者们尝试的其他方法都更糟糕。因此，研究者得出结论：中间层执行的是不同的功能，让中间层之间共享权重并不可行。

层的顺序重要吗？

之前的实验表明，中间层共享一个表示空间，但在该空间中负责不同的功能。下一个需要解决的问题是，这些功能的顺序有何意义。为了解决这个问题，研究者们设计了两组实验。首先，以与训练时相反的顺序来运行中间层。具体来说，取第 T - N 层的输出，将其输入到第 T - N - 1 层，然后将这一层的输出输入到第 T - N - 2 层，依此类推，一直到第 N 层，再将这一层的输出发送到后面的 T - N 层。在第二组实验中，研究者采用随机顺序运行中间层，并在 10 个种子值上取平均值。

图 6 和图 7 分别显示了反向和以随机顺序运行中间层的结果，模型在所有基础测试集中都显示出了逐渐下降的趋势。这也表明虽然层的顺序对模型来说有一定的重要性，但即使改变了顺序，这些层仍然能够发挥作用。

更有趣的是，随机打乱层的顺序比完全反过来效果更好。这可能是因为，随机打乱的顺序在某些方面保留了层之间的一些原有关系（即层 i 在层 j 之后，其中 i > j），而完全反过来则完全打破了这些关系。

这些层可以并行运行吗？

为了验证层本身存在比执行的顺序更重要，研究者们设计了一个实验，并行运行中间层，将它们的平均结果发送给最终的 N 层。

如图 8 所示，模型在所有基准测试中的表现均呈现了一种平缓下降趋势，然而，这种趋势并不适用于 GSM8K 中的数学应用题。

实验结果显示，大部分情况下这种方法都是有效的，只是一些复杂的数学题处理得不太好。这种并行处理方法相比直接跳过一些层，效果更好，但不如按反向顺序运行层的效果出色。基于此，研究者得出结论：并行运行层在一般情况下是可行的，但对于需要顺序逻辑理解的数学问题，这种方法可能不太适用。

对于某些任务来说，顺序是否比其他因素更重要？

对于大多数经过「改造」的模型，在面对抽象推理（ARC）或数学推理（GSM8K）基准测试时，它们往往显示出最陡峭的下降趋势。这一现象可能源于逐步推理任务对于模型层级顺序的敏感度远高于那些主要依赖语义理解的常识性任务。与那些仅通过理解语义便能完成的任务不同，推理任务要求模型同时把握结构与含义。这种观察与模型在单次处理过程中可能进行一定程度的顺序依赖性推理的假设相吻合。

研究者使用了一个比喻来说明：如果画一幅由许多不同元素组成的拼贴画，那么画的顺序可能不那么重要；但如果是要画一幅精确的建筑场景，那么每一笔的顺序就变得非常重要了。据此，研究者得出了结论：数学和推理任务对模型层的顺序具有更高的依赖性，而对于那些主要依赖语义理解的任务，顺序的影响则相对较小。

循环有助于层之间并行吗？

沿用上一节中画画的的比喻，当画家在画一幅画时，不是一开始就画所有东西，而是先画一部分，比如车身，然后再根据这部分来添加其他的东西，比如车轮。在 AI 模型中，层就是所谓的画家，处理信息就是在画画，如果先得到了正确的信息，也就先画出了所谓的车身，那么它们就能更好地完成自己的工作，为画作添加车轮。

对于 transformer 而言，当给予适当的输入时，层可能只在前向传播中做出贡献，并非通过残差连接「传递」输入。如果情况确实如此，那么迭代上一个实验中的并行层应该比单次执行并行层更能提高模型的性能。基于此，研究者通过将并行层的平均输出反馈到同一层中进行固定次数的迭代来测试这一点。

图 9 展示了将并行层循环 3 次的结果。循环并行 3 次的结果显著优于单次迭代（并行层）。起始层 N 设定为 15（针对 Llama2-7B 模型）或 11（针对 BERT 模型）时，即处于每种情况的极左端点，仅有单一的层级受到影响。在这种特定情况下，三次循环并行的效果等同于单纯地将中间层重复三次。与此同时，对于这一点上的并行层而言，其性能与完整模型无异。

研究者们还针对不同的迭代次数重复了相同的实验。图 10 展示了 Llama2-7B 的性能随并行化层数 M 和迭代次数的变化情况。每个 M 的最高性能迭代次数用红框标出。除了 M=29 和 M=31（几乎并行化所有层）外，最佳迭代次数大致与并行化层数成线性比例。因此，研究者得出的结论是：最佳迭代次数与并行化层数成正比。

如何调整层，对模型性能的影响最小？

最后，在图 11 中，研究者们将所有实验中对 Transformer 的「改造」进行了比较，在一个图表上显示了所有基准测试的中位数或平均性。

中间重复 —— 用相同数量的中间层副本替换中间层 —— 表现最差，很快就降到了随机基线的性能。相反，循环并行和随机层顺序的影响最小。因此，研究者得出的结论是：重复单一层的影响最严重。随机化层顺序和循环并行的影响最小。

这些实验整体上显示出平缓的性能下降，但研究者仍然不清楚为什么这些层在大多数扰动下还能保持一定的稳健性，这个问题还需在未来的研究中进一步探讨。

参考链接：https://arxiv.org/pdf/2407.09298v1

....

#SpatialBot

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

本文第一作者为斯坦福大学研究生蔡闻骁，此前，他以绩点第一名的成绩在东南大学取得学士学位。他的研究兴趣为多模态大模型、xx智能。此工作为其在上海交通大学访问和北京智源人工智能研究院实习期间完成，导师为本文通讯作者赵波教授。

此前，李飞飞老师提出了空间智能 (Spatial Intelligence) 这一概念，作为回应，来自上交、斯坦福、智源、北大、牛津、东大的研究者提出了空间大模型 SpatialBot，并提出了训练数据 SpatialQA 和测试榜单 SpatialBench，尝试让多模态大模型在通用场景和xx场景下理解深度、理解空间。

论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models
论文链接: https://arxiv.org/abs/2406.13642
项目主页: https://github.com/BAAI-DCAI/SpatialBot

在xx智能的 pick and place 任务中，需要判断机械爪是否碰到了目标物体。如果碰到，则可以合上爪子抓取。然而，在这个 Berkerly UR5 Demonstration Dataset 场景中，即使是 GPT-4o 或人类，都无法从单张 RGB 图像中判断机械爪是否碰到了目标物体，比如借助深度信息，将深度图直接给 GPT-4o 看的话，也无法判断，因为它不能理解深度图。

SpatialBot 通过对 RGB-Depth 的理解，可以准确获得机械爪和目标物体的深度值，从而产生对空间概念的理解。

xx场景的 SpatialBot Demo：

1. 以人 (相机) 的视角，抓取右侧的茶杯

2. 抓取最中间的茶杯

作为走向xx智能的必要路径，如何让大模型理解空间？

点云比较贵，双目相机在使用中需要经常校准。相比之下，深度相机价格可以接受、使用范围广。在通用场景中，即使没有这样的硬件设备，大规模无监督训练过的深度估计模型已经可以提供较为准确的深度信息。因此，作者提出，使用 RGBD 作为空间大模型的输入。

目前的技术路线存在什么问题？

现有模型无法直接理解深度图输入。比如，图像编码器 CLIP/SigLIP 在 RGB 图像上训练，没有见过深度图。
现有大模型数据集，大多仅用 RGB 就可以分析、回答。因此，如果仅仅简单的将现有数据改为 RGBD 输入，模型不会主动到深度图中索引知识。需要专门设计任务和 QA，引导模型理解深度图、使用深度信息。

三个层次的 SpatialQA，逐步引导模型理解深度图、使用深度信息

如何引导模型理解和使用深度信息，理解空间？

作者提出具有三个层次的 SpatialQA 数据集。

在 low level 引导模型理解深度图，引导从深度图直接获取信息；
在 middle level 让模型将 depth 与 RGB 对齐；
在 high level 设计多个深度相关任务，标注了 50k 的数据，让模型在理解深度图的基础上，使用深度信息完成任务。任务包括：空间位置关系，物体大小，物体接触与否，机器人场景理解等。

示例对话

SpatialBot 包含什么？

1. 借鉴 agent 中的思想，SpatialBot 在需要时，可以通过 API 获取准确的深度信息。在深度信息获取、远近关系比较的任务上，可以达到 99%+ 的准确率。

2. 针对空间理解任务，作者公布了 SpatialBench 榜单。通过精心设计和标注 QA，测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。

模型如何理解深度图？

1. 输入模型的深度图：为了兼顾室内室外任务，需要统一的深度图编码方式。室内的抓取、导航任务可能需要毫米级的精确度，室外的场景不需要这么精准，却可能需要 100 米以上的深度值范围。传统视觉任务中会用 Ordinal Encoding 来编码，但是 ordinal 的值无法进行加减运算。为了尽可能保留所有深度信息，SpatialBot 直接使用以毫米为单位的 metric depth，范围为 1mm～131m，使用 uint24 或三通道的 uint8 来保留这些值。

2. 为了精准的获取深度信息，借鉴 agents 中的思想，SpatialBot 在认为有必要的时候，会以点的形式调用 DepthAPI，获取准确的深度值。若想获取物体的深度，SpatialBot 会先思考物体的 bounding box 是什么，然后用 bounding box 的中心点调用 API。

3. SpatialBot 使用物体的中心点、深度平均、最大和最小四个值来描述深度。

SpatialBot 和 DepthAPI 架构

SpatialBot 在通用场景和xx场景效果如何？

1. SpatialBot 基于 3B 到 8B 的多个 base LLM。通过在 SpatialQA 中学习空间知识，SpatialBot 在常用 MLLM 数据集 (MME、MMBench 等) 上同样展示了显著的效果提升。

2. 在 Open X-Embodiment、作者收集的机器人抓取数据等xx任务上，SpatialBot 同样展示了惊人效果。

SpatialBot 通用场景对比实验

数据如何标注？

精心设计了关于空间理解的问题，比如深度、远近关系、上下左右前后位置关系、大小关系，并且包含了xx中的重要问题，比如两个物体是否接触。

在测试集 SpatialBench 中，首先人工思考问题、选项和答案。为了扩大测试集大小，也使用 GPT 以同样的流程标注。

训练集 SpatialQA 包含三方面：

直接理解深度图，让模型看深度图，分析深度的分布，猜测其中可能包含的物体；
空间关系理解和推理；
机器人场景理解：描述 Open X-Embodiment 和本文收集的机器人数据中的场景、包含的物体、可能的任务，并人工标注物体、机器人的 bounding box。

空间关系理解

Open X-Embodiment 机器人场景理解

深度图理解。在使用 GPT 标注这部分数据时，GPT 会先看到深度图，描述深度图、推理其中可能包含的场景和物体，然后看到 RGB 图，筛选出正确的描述和推理。

.....

#Retrosynthesis prediction with an iterative string editing model

准确率达60.8%，浙大基于Transformer的化学逆合成预测模型，登Nature子刊

逆合成是药物发现和有机合成中的一项关键任务，AI 越来越多地用于加快这一过程。

现有 AI 方法性能不尽人意，多样性有限。在实践中，化学反应通常会引起局部分子变化，反应物和产物之间存在很大重叠。

受此启发，浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务，迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型 EditRetro，该模型可以实现高质量和多样化的预测。

大量实验表明，模型在标准基准数据集 USPTO-50 K 上取得了出色的性能，top-1 准确率达到 60.8%。

结果表明，EditRetro 表现出良好的泛化能力和稳健性，凸显了其在 AI 驱动的化学合成规划领域的潜力。

相关研究以「Retrosynthesis prediction with an iterative string editing model」为题，于 7 月 30 日发布在《Nature Communications》上。

论文链接：https://www.nature.com/articles/s41467-024-50617-1

分子合成路径设计是有机合成的一项重要任务，对生物医学、制药和材料工业等各个领域都具有重要意义。

逆合成分析是开发合成路线最广泛使用的方法。它包括使用已建立的反应将分子迭代分解为更简单、更易于合成的前体。

近年来，AI 驱动的逆合成促进了对更复杂分子的探索，大大减少了设计合成实验所需的时间和精力。单步逆合成预测是逆合成规划的重要组成部分，目前已有几种基于深度学习的方法，且效果优异。这些方法大致可分为三类：基于模板的方法、无模板的方法和半基于模板的方法。

在此，研究人员专注于无模板逆合成预测。提出将问题重新定义为分子字符串编辑任务，并提出基于编辑的逆合成模型 EditRetro，可以实现高质量和多样化的预测。

图示：所提出的基于分子串的逆合成的 EditRetro 方法的示意图。（来源：论文）

该研究的核心概念是，通过使用 Levenshtein 操作的迭代编辑过程生成反应物字符串。该方法从基于编辑的序列生成模型的最新进展中汲取灵感。具体来说，采用了 EDITOR 中的操作，EDITOR 是一种基于编辑的 Transformer，专为神经机器翻译而设计。

EditRetro 概述

EditRetro 模型包含三种编辑操作，即序列重新定位、占位符插入和标记插入，以生成反应物字符串。它由一个 Transformer 模型实现，该模型由一个编码器和三个解码器组成，两者都由堆叠的 Transformer 块组成。

重新定位解码器：重新定位操作包括基本的 token 编辑操作，例如保留、删除和重新排序。它可以与识别反应中心的过程进行比较，包括重新排序和删除原子或基团以获得合成子。
占位符解码器：占位符插入策略（分类器）预测要在相邻 token 之间插入的占位符数量。它在确定反应物的结构方面起着至关重要的作用，类似于识别从序列重新定位阶段获得的中间合成子中添加原子或基团的位置。
Token 解码器：token 插入策略（分类器），负责为每个占位符生成候选 token。这对于确定可用于合成目标产品的实际反应物至关重要。该过程可以看作是合成子完成的类似过程，结合占位符插入操作。

EditRetro 模型通过其非自回归解码器提高了生成效率。尽管结合了额外的解码器来迭代预测编辑操作，但 EditRetro 在每个解码器内并行执行编辑操作（即非自回归生成）。

当给定一个目标分子时，编码器将其字符串作为输入并生成相应的隐藏表示，然后将其用作解码器交叉注意模块的输入。类似地，解码器也在第一次迭代时将产品字符串作为输入。在每次解码迭代期间，三个解码器依次执行。

优于基线、生成准确反应物

研究人员在公共基准数据集 USPTO-50K 和 USPTO-FULL 上评估了所提方法。大量实验结果表明，该方法在预测准确度方面优于其他基线，包括最先进的基于序列的方法 R-SMILES 和基于图编辑的方法 Graph2Edits。

EditRetro 在基准逆合成数据集 USPTO-50K 上进行的大量实验表明，EditRetro 取得了优越的性能，top-1 精确匹配准确率达到 60.8%。

此外，在更大的 USPTO-FULL 数据集上，其中 top-1 精确匹配准确率达到 52.2%，证明了其在更多样化和更具挑战性的化学反应中是有效的。

EditRetro 在 RoundTrip 和 MaxFrag 准确率方面也表现出优于基线方法的性能。这证明了 EditRetro 能够有效地学习化学规则。

此外，EditRetro 通过精心设计的推理模块提供多样化的预测。该模块结合了重新定位采样和序列增强，有助于生成多样化和变化的预测。重新定位采样对重新定位动作的预测进行采样，从而能够识别不同的反应位点。序列增强从不同的产品变体到反应物生成不同的编辑途径，从而提高了预测的准确性和多样性。这两种策略共同作用，提高了预测的准确性和多样性。

进一步的实验验证了 EditRetro 在一些更复杂的反应中的优越性，包括手性、开环和成环反应。结果证实了 EditRetro 在这些具有挑战性的场景中的优越性，证明了它能够处理不同类型的化学转化。

在多步合成规划中的实用性

特别是，EditRetro 在四个多步骤逆合成规划场景中的成功应用证明了其实用性。

为了评估 EditRetro 在合成规划中的实用性，通过连续的逆合成预测设计完整的化学途径。研究人员选择了四种具有重要药用价值的目标化合物进行评估：非布司他、奥希替尼、GPX4 的变构激活剂和 DDR1 激酶抑制剂 INS015_037。