当前位置：首页 > news >正文

51c大模型~合集182

news 2025/9/16 12:04:08

我自己的原文哦~ https://blog.51cto.com/whaosoft/14174587

#LaV-CoT

超越GPT-4o，蚂蚁集团与南洋理工大学提出：首个语言感知的视觉思维链

随着大型视觉语言模型（VLM）的飞速发展，它们在处理复杂的视觉问答任务时展现出惊人的能力。其中，思维链（Chain-of-Thought, CoT）技术通过模拟人类一步一步的思考过程，极大地增强了模型的推理能力和可解释性。然而，当面临真实世界中更复杂的多语言视觉问答（multilingual VQA, mVQA）场景时，现有的CoT方法开始捉襟见肘——它们大多是纯文本的，并且以英语为中心，常常导致推理过程与视觉信息脱节，或在回答非英语问题时出现“语言错乱”（例如用英语回答阿拉伯语问题）。

为了解决这一痛点，来自蚂蚁集团和南洋理工大学的研究者们提出了一个名为 LaV-CoT 的全新框架。这是首个具备语言感知能力的视觉思维链（Language-aware Visual CoT），并引入了多维度奖励优化机制。LaV-CoT不仅在多个公开基准测试中取得了SOTA性能，准确率相比同等规模的开源模型提升了约9.5%，甚至超越了GPT-4o、Gemini-2.5-flash等顶尖专有模型，其在真实世界在线A/B测试中的优异表现也证明了其巨大的工业应用潜力。

论文标题: LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA
作者: Jing Huang, Zhiya Tan, Shutao Gong, Fanwei Zeng, Jianshu Li
机构: 蚂蚁集团、南洋理工大学
论文地址: https://arxiv.org/abs/2509.10026
代码地址: https://github.com/HJNVR/LaV-CoT

研究背景：当CoT遇上多语言VQA的挑战

思维链（CoT）让VLM在回答问题前，先生成一个详细的推理步骤，这使得模型的决策过程更加透明，也更能处理复杂逻辑。但现有方法在多语言VQA场景下存在三大核心问题：

语言不一致：模型可能无法识别问题的语言，导致用一种语言提问，却用另一种语言（通常是英语）回答。
视觉-文本未对齐：纯文本的CoT推理过程可能忽略或错误地解读了图像中的关键视觉信息。
多语言推理能力有限：模型在非英语语境下的复杂推理能力显著弱于英语。

从直接回答(a)，到普通CoT(b)，再到LaV-CoT(c)，模型的回答在语言一致性和准确性上逐步提升。

LaV-CoT正是为了系统性地解决这些问题而设计的，它旨在创建一个既“看得懂图”又“说得对语言”的、结构化的推理框架。

LaV-CoT：数据、流程与训练的“三位一体”创新

LaV-CoT的创新体现在三个层面：定义了全新的语言感知视觉CoT推理流程，设计了自动化的CoT数据生成管线，并采用了基于多维度奖励的二阶段训练范式。

1. 语言感知的视觉CoT推理流程

这是LaV-CoT的核心。它将复杂的推理过程分解为四个可解释、可验证的阶段：

带边界框的文本摘要 (Text Summary with BBox) ：首先，模型会检测并识别图像中的所有文本，并用边界框（BBox）标出其位置，然后对文本内容进行摘要。
语言识别 (Language Identification) ：接着，模型会明确地识别出用户问题的所属语言，并打上标签（如\lang{Thai}）。这是实现“语言感知”的关键一步。
空间对象级描述 (Spatial Object-level Captioning) ：模型会描述图像中与问题相关的关键对象及其空间位置关系，并统计对象数量（如\obj{5}）。
步进式逻辑推理 (Step-by-step Logical Reasoning) ：最后，模型综合以上所有信息，用目标语言进行一步一步的逻辑推理，最终得出答案。

2. 自动化的多语言CoT数据生成

高质量的CoT训练数据是稀缺且昂贵的。LaV-CoT设计了一套自动化数据策划方法来解决这个问题。它利用一个强大的VLM（如GPT-4o）作为“生成器”，遵循上述四阶段流程生成初始的CoT标注。然后，再利用一个“评估器”对生成的每一步进行打分和校验。对于不合格的步骤，系统会定位错误并调用生成器进行修正，如此迭代生成、纠错、精炼，直至产出完全通过验证的高质量多语言CoT数据，为后续的模型训练提供了可扩展的数据基础。

3. 基于多维度奖励的二阶段训练

为了让模型能完美地学习和执行LaV-CoT流程，研究者设计了独特的两阶段训练范式：

阶段一：监督微调 (SFT) ：首先，在自动生成的CoT数据集上对基础VLM进行SFT，让模型学会LaV-CoT的四阶段推理结构。
阶段二：语言感知的分组相对策略优化 (GRPO) ：这是LaV-CoT性能起飞的关键。它是一种强化学习优化方法，模型会针对一个问题生成多个候选的CoT推理路径。然后，一个多维度奖励函数会从多个方面对这些路径进行打分，包括：

语言一致性奖励：推理和答案的语言是否与问题一致？
结构准确性奖励：CoT是否严格遵循了四阶段格式？文本和对象的计数是否正确？
语义对齐奖励：最终答案是否正确？（通过与标准答案的编辑距离等计算）

这种精细化的奖励机制，引导模型不仅仅是“答对问题”，更是要“以正确、一致、可解释的方式答对问题”。

实验结果：全面超越，效果惊人

LaV-CoT在MMMB、Multilingual MMBench、MTVQA等多个权威的多语言VQA基准上进行了广泛评测。

性能大幅领先：基于Qwen2.5-VL-3B训练的LaV-CoT模型，相比同等规模的开源基线，平均准确率提升了约9.5%。更惊人的是，它甚至比两倍参数规模的Qwen2.5-VL-7B等模型还高出约2.6%。
超越顶尖专有模型：在多个语言（特别是阿拉伯语、土耳其语等）的任务上，LaV-CoT的表现超越了GPT-4o和Gemini-2.5-flash。

对于一个阿拉伯语问题，Qwen2.5-VL-7B虽然进行了推理，但语言错乱且答案错误；而LaV-CoT则能全程使用阿拉伯语进行正确推理。

真实世界验证：研究团队还将LaV-CoT集成到企业级的智能文档处理系统中进行了在线A/B测试。结果显示，相比原有的生产管线，LaV-CoT使答案采纳率提升了8.7%，用户满意度提升了12.4%，充分证明了其在工业界部署的巨大价值。

总结与价值

LaV-CoT的提出，为多语言、多模态人机交互领域树立了新的标杆。其核心贡献在于：

首创语言感知的视觉CoT框架：通过结构化的多阶段推理流程，有效解决了VLM在多语言场景下的语言不一致和视觉-文本对齐问题。
可扩展的自动化数据方案：创新的“生成-验证-修正”数据闭环，为训练高质量的CoT模型提供了一种可规模化、低成本的解决方案。
精细化的多维度奖励优化：设计的GRPO训练范式和多方面奖励函数，为模型学习复杂、结构化的推理能力提供了强有力的引导。
SOTA的性能与工业价值：无论是在学术基准还是真实的工业场景，LaV-CoT都展现了卓越的性能和巨大的应用潜力。

CV君认为，LaV-CoT不仅是一个强大的VQA模型，更重要的是它为如何构建更鲁棒、更可信、更能适应全球化应用的多模态AI系统，提供了一套完整且极具启发性的方法论。

#LayerLock

DeepMind与牛津大学提出：用渐进式层冻结实现高效、无崩溃的自监督视觉表征学习

在自监督学习领域，如何让模型在没有标签的情况下学到有用的视觉表征，一直是核心挑战。其中，掩码自编码（MAE）是一个明星方法，但它依赖于繁重的像素重建任务。另一条路是预测网络自身的“潜在特征”，这更高效，却极易陷入“表征崩溃”的陷阱——即模型学会了一个无用的、平凡的解。

本文介绍一篇来自 Google DeepMind 和 牛津大学 的最新研究，该研究已被 ICCV 2025 接收。论文提出了一种名为 LayerLock 的方法，它通过一个简单而巧妙的“渐进式层冻结”策略，成功解决了潜在预测中的表征崩溃问题，同时提升了训练效率。简而言之，LayerLock就像一个聪明的课程表，引导模型从“学习像素”平滑过渡到“学习特征”，最终培养出更强大的视觉能力。该方法已成功扩展至 40亿参数 的大模型。

论文标题: LayerLock: Non-collapsing Representation Learning with Progressive Freezing
作者: Goker Erdogan, Nikhil Parthasarathy, Catalin Ionescu, Drew Hudson, Alexander Lerchner, Andrew Zisserman, Mehdi Sajjadi, Joao Carreira
机构: Google DeepMind, 牛津大学
论文地址: https://arxiv.org/abs/2509.10156
录用信息: ICCV 2025

研究背景与动机

自监督学习旨在让模型从无标签数据中“自我教育”。其中，掩码自编码（Masked Auto-Encoding, MAE） 是一种主流范式，它随机遮挡输入（如视频帧）的一部分，然后让模型去重建被遮挡的内容。这种“完形填空”式的任务迫使模型学习到底层视觉规律。然而，直接重建像素计算成本高，且可能过于关注低级纹理细节。

一个更高效的替代方案是 潜在预测（Latent Prediction），即不预测原始像素，而是预测网络自身在某个中间层产生的特征（潜在表征）。这种方法的挑战在于极易发生 “表征崩溃”（Representation Collapse）。想象一下，如果模型的“学生”部分（解码器）要预测“老师”部分（编码器）的输出，最简单的“作弊”方法就是让老师输出一个常数，学生也跟着输出一个常数，损失函数瞬间降为零，但模型什么有用的东西都没学到。

为了防止这种“躺平”现象，现有方法通常需要引入复杂的机制，如非对称架构、停止梯度、目标编码器等。而LayerLock则提出，或许只需要一个更聪明的训练流程。

LayerLock：从一个惊人发现到优雅解决方案

LayerLock的灵感来源是一个简单而关键的观察：在训练基于ViT的视频MAE模型时，网络层的收敛存在明确的先后顺序——浅层网络总是比深层网络更早收敛。

上图清晰地展示了这一点：横轴是冻结操作开始的训练步数，纵轴是最终的损失。可以看到，浅层（如Layer 3）即使在训练早期（如2000步）就被冻结，最终的性能也几乎不受影响。而深层（如Layer 12）如果过早冻结，性能就会大打折扣。这说明浅层特征学习得非常快。

基于这一观察，研究者提出了 LayerLock 策略，其核心思想是设计一个课程学习（Curriculum Learning）方案：

初始阶段：预测像素。 训练开始时，模型执行标准的MAE任务，即重建被遮挡的像素。这为模型提供了一个稳定且有意义的初始学习信号，使其学到基础的视觉特征。
渐进冻结与目标切换。 根据一个预设的时间表（schedule），在训练的特定阶段，逐步冻结已经收敛的浅层网络。关键操作是：每当冻结网络的某一层（比如第k层）时，就将预测目标从原始像素切换为该层（第k层）的输出特征。
持续推进。 随着训练的进行，冻结的层数越来越多，预测的目标也越来越“深入”网络内部，从低级特征平滑过渡到高级、抽象的语义特征。

上图直观地展示了这个过程：

左图：初始状态，无冻结层，模型预测像素 x。
中图：冻结第一层后，模型转而预测第一层的输出 h1。
右图：继续冻结前两层，模型的目标变为预测第二层的输出 h2。

这个过程不断持续，直到大部分编码器层都被冻结。CV君认为，LayerLock的巧妙之处在于，它将“层收敛的先后顺序”这一经验观察，转化为了一个动态的、从易到难的学习课程。通过先让模型稳定地学会预测浅层特征，再逐步增加难度去预测深层特征，自然而然地避免了“表征崩溃”的发生，因为模型在任何阶段都有一个非平凡（non-trivial）的学习目标。

LayerLock前向传播伪代码

实验结果与分析

研究者在高达10亿视频片段的数据集上，对最大 40亿参数 的4DS模型家族应用了LayerLock，并在动作识别（SSv2, Kinetics-700）和深度估计（ScanNet）等任务上进行了评估。

1. LayerLock显著提升性能

实验结果（下表）表明，无论是在基于像素预测的MAE模型（4DS-G, 4DS-e）上，还是在基于潜在预测的V-JEPA模型上，应用LayerLock都带来了显著的性能提升，尤其是在需要高级语义理解的动作识别任务上。

2. 渐进式冻结是防止崩溃的关键

为了证明“渐进式冻结”的必要性，研究者进行了一项关键的消融实验：在标准的MAE模型上，不使用冻结策略，而是直接添加潜在损失（即同时预测像素和中间层特征）。结果如下表所示，模型的性能急剧下降，出现了明显的“表征崩溃”现象。这有力地证明了LayerLock中的渐进式冻结和目标切换机制是防止崩溃的核心所在。

3. 提升训练效率，节省计算和内存

除了提升性能，LayerLock还带来了实实在在的效率增益。由于网络层被逐渐冻结，反向传播需要计算的梯度越来越少。实验表明，简单的逐层冻结策略可以在性能几乎无损的情况下，节省9%的总计算量（FLOPs）和16%的峰值内存占用。对于动辄需要数百上千卡时训练的大模型而言，这是非常可观的优化。

4. 其他消融研究

研究者还进行了详尽的消融实验，探讨了冻结时间表、目标选择、损失函数加温等超参数的影响，为方法的有效性提供了坚实支撑。例如，实验发现：

3D RoPE位置编码：新颖的3D旋转位置编码能独立地提升基线和LayerLock的性能。
单一预测目标足够：在每个阶段只预测最新冻结层的输出，就足以达到良好性能，无需同时预测多个历史目标。
冻结时间表：更平滑、渐进的冻结计划通常比激进的计划效果更好。

总结与贡献

LayerLock 提出了一种简单、通用且高效的自监督视觉表征学习方法。其核心贡献在于：

揭示了ViT层序贯收敛的现象：首次明确指出并利用了视频MAE训练中“浅层先收敛，深层后收敛”的规律。
提出了渐进式冻结的学习框架：通过动态地将预测目标从像素平滑过渡到不同深度的潜在特征，有效解决了潜在预测中的“表征崩溃”问题，增强了训练的稳定性。
提升了训练效率：通过冻结部分网络，减少了反向传播的计算量和内存占用，为训练更大、更深的视频模型开辟了道路。
验证了其通用性和可扩展性：该方法不仅适用于多种模型（MAE, V-JEPA），还在高达40亿参数的大模型上取得了成功，并在多个下游任务上超越了基线性能。

总而言之，LayerLock为自监督学习社区提供了一个优雅而实用的新“配方”，有时候解决棘手的“表征崩溃”问题，并不需要复杂的模型设计，而可能只需要一个更懂模型学习动态的训练策略。

#Ark

告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架

近年来，机器人技术在硬件领域取得了显著突破 —— 无论是 DARPA 机器人挑战赛，还是首届人形机器人自由搏击表演，都展示了令人瞩目的进展。然而，机器人的自主能力仍明显落后于机器学习的发展步伐。

造成这一差距的关键瓶颈在于软件层面：现有的机器人技术栈学习门槛较高，仍大量依赖 C/C++ 进行底层开发，工具链分散且硬件集成复杂。相比之下，推动现代人工智能发展的生态系统以 Python 为核心，文档完善、易于使用 —— 两者形成了鲜明对比。

为应对这些挑战，来自华为诺亚方舟实验室，德国达姆施塔特工业大学，英国伦敦大学学院，帝国理工学院和牛津大学的研究者们联合推出了 Ark —— 一个基于 Python 的机器人开发框架，支持快速原型构建，并可便捷地在仿真和真实机器人系统上部署新算法。

Ark 与主流机器学习工作流深度兼容，能够从仿真环境或实际机器人中采集和预处理数据，并支持使用如 ACT、Diffusion Policy 等前沿模仿学习方法进行策略训练。该框架采用类似 OpenAI Gym 风格的主接口设计，极大降低了机器学习研究者的上手门槛，便于集成与实验。在架构层面，Ark 使用基于网络的 Python 节点实现发布 / 订阅通信机制，同时也提供 C/C++ 工具以兼容高性能需求场景。框架还内置了对 ROS 的原生支持，包含底层控制、数据工具、可视化、系统辨识、移动底盘导航等多个核心模块，并配备完整的文档与实用示例。

图 1: Ark 的整体框架

论文链接：https://arxiv.org/pdf/2506.21628
代码链接：https://github.com/Robotics-Ark
教程链接：https://arkrobotics.notion.site/Ark-Home-22be053d9c6f8096bcdbefd6276aba61

图 2: Ark 目前的下载量

Ark 框架概述

为推进xx智能研究的发展，Ark 应运而生。该框架致力于与典型机器学习工作流深度整合，使用户能够快速构建原型并将其部署至物理机器人。其设计秉持三大理念：

（D1）兼容主流机器学习生态

Ark 提供与广泛使用的机器学习库一致的用户接口，降低机器学习背景研究者参与机器人开发的门槛，弥补机器人学习系统在成熟度与标准化方面的不足。

（D2）支持仿真 - 实机无缝切换

Ark 着力打通模拟环境与真实系统之间的壁垒，既保障开发阶段的安全性，也显著降低从仿真迁移到实机过程中的复杂度和错误率。

（D3）以 Python 为中心，兼顾高性能需求

Ark 以 Python 作为核心开发语言，依托其丰富的生态系统支持快速迭代与实验。同时，针对高频任务（如底层运动控制），也提供了便捷的 C/C++ 接口扩展能力，确保关键模块的执行效率。

下文将具体介绍 Ark 的核心功能与实现特点。

Ark 网络

模块化是机器人软件系统设计的一项基本原则：通过将系统拆分为数据采集、状态估计、任务规划与控制等独立模块，可有效提升可维护性和扩展性。Ark 框架将每个模块实现为独立的 Python 进程（称为 “节点”），节点之间通过异步消息通道进行通信，采用灵活的发布 / 订阅机制实现数据交换。用户可通过形如 NODE_NAME/CHANNEL_NAME 的命名方式定义通道，并动态创建发布端和订阅端。我们遵循 LCM 类型规范语言定义消息类型，每个消息通道通过名称和消息类型标识。Ark 提供名为 ark_types 的消息类型库，包含多种机器常用类型（如 joint_state_t 或 transform_t）。

当前版本中，Ark 使用 LCM 作为底层通信后端，其轻量化架构和丰富的配套工具（如日志记录、调试和内省支持）特别适用于机器人系统中的数据记录与开发调试。同时，网络层被设计为可插拔结构，便于未来扩展如分布式训练与推理等复杂机器学习工作流。

使用 LCM 的另一优势是易于集成 C/C++/Java 等底层语言。由于 Ark 节点通过 LCM 消息通道通信，其他语言编写的脚本也可利用标准 LCM 接口进行网络通信。这对于仅支持厂商提供的 C/C++/Java API 的硬件设备（如力反馈接口）非常有用。用户可通过实现相应的 LCM 发布 / 订阅接口将设备接入 Ark。然而，基于 Ark 在仿真与真实环境间协调的架构设计（后文讨论），以 LCM 作为其他语言与 Python 之间的桥梁并非总是最佳选择。为此，Ark 提供一系列工具和辅助函数 / 类，帮助用户直接将 C/C++ 功能封装到 Python。

Ark 还提供以下功能：

Services：为需明确请求 - 响应的操作（如机械臂标定触发）提供支持，基于 LCM 类型系统定义请求与响应结构；
Registry：作为轻量级的网络协调与服务发现枢纽，支持运行时可视化与故障隔离；
Launcher：允许用户在单一 YAML 格式配置文件中定义整个网络，通过一次终端执行自动启动所有指定子进程。

观测与动作通道

Ark 采用 Gymnasium（OpenAI Gym）风格的接口设计：reset () 方法返回初始观测值和环境信息；step () 方法则返回下一步的观测值、奖励、终止 / 截断标志以及信息字典。每个环境在初始化时通过一个字典结构分别定义其观测空间与动作空间所依赖的消息通道：观测空间通过订阅多个消息通道获取数据，动作空间则通过向指定通道发布指令来控制机器人。不同观测通道可支持不同的采样频率，环境在每一步执行时自动返回各通道最新的一条消息。这种设计使研究者能够快速原型化不同的策略输入输出组合，灵活适配多种算法与任务结构。

真实世界与物理仿真

Ark 的一大能力是通过单个配置开关在仿真与真实机器人之间切换（sim = True/False）。Ark 以分布式节点架构把机器人与传感器（无论真实还是仿真）都实现为独立节点；仿真端由一份 YAML 配置驱动，使仿真与真实系统接口的节点保持一致，从而可以在仿真模拟和现实部署中轻松切换。

在仿真后端上，Ark 并不是绑定单一模拟器，而是提供后端抽象层以便按需对接。当前 Ark 已支持 PyBullet 与 MuJoCo，后续计划集成 Isaac Sim 等；仿真 / 现实的切换和后端选择全部通过 YAML 配置完成，Ark 自动初始化相应驱动，保证消息模式、通道命名与执行流程保持一致。

图 2: Ark 使用统一配置文件来实例化反映真实世界部署的分布式模拟系统

机器人与传感器驱动

Ark 虽然在用户接口层面（如类 Gym 的交互方式）提供了标准化的设计，但整个框架在架构上保持了高度的可扩展性。自设计之初，我们就以广泛的机器人及传感器兼容性为目标，致力于支持多样化的硬件生态。与近年出现的某些仅针对特定机型（如 LeRobot、PyRobot）的框架不同，Ark 旨在支持更多的硬件，并通过多种灵活的对接机制实现通用化集成。

Python 驱动接口：

Ark 提供了抽象基类 ComponentDriver，用于统一硬件组件与框架的集成方式。用户在实现具体驱动时，只需继承该类并重写标准抽象方法，例如传感器的 get_data 或机器人的 send_command。每个驱动均可与 Ark 的 “仿真 - 现实” 开关无缝集成，系统会根据全局配置自动将消息路由到真实硬件或对应的仿真节点。

C++ 驱动支持：

在很多实际场景中，仍然需要依赖 C/C++ 实现底层驱动，例如某些设备仅提供原生 C/C++ 接口，或需要高采样率以满足实时控制需求（如足式机器人的步行控制）。为此，Ark 提供基于 pybind11 的 C++ 封装工具，使得仅具备 C++ 接口的硬件也能够以与 Python 驱动一致的方式接入 Ark，在保持性能的同时实现系统一体化。

ROS–Ark 桥接：

目前 ROS 仍是机器人领域应用最广泛的中间件体系，部分机器人（如 ViperX 机械臂）仅提供基于 ROS 的官方接口。为兼容此类系统，Ark 提供专用的 ROS–Ark 桥接驱动，可实现 ROS topic 与 Ark 消息通道之间的双向通信。用户可在不改动原有 ROS 代码的前提下，实现 ROS 与 Ark 的混合运行，这也为从 ROS 逐步迁移至 Ark 提供了平滑过渡路径。根据我们与多家机器人实验室的实际使用反馈，目前桥接器主要支持 ROS 1；对 ROS 2 的支持将根据社区需求进一步评估和推进。

内省与调试工具

机器人系统通常由多个进程构成，模块间耦合复杂，因此一套完善的可视化与调试工具对快速定位和解决问题至关重要。Ark 为此提供了以下核心工具：

Ark Graph：实时显示系统中所有活跃节点、它们发布与订阅的消息通道以及当前可用的服务，帮助用户快速理解系统拓扑和通信关系。
Ark Plot：支持对任意数值型消息通道进行实时绘图，可用于观察变量随时间的变化趋势，例如整定控制参数或诊断传感器数据行为。
Ark Viewer：实时可视化任意基于 LCM 传输的图像消息通道，适用于相机标定、运行监控和图像算法调试。

此外，Ark 选择 LCM 作为通信中间件的另一个重要原因，在于其原生提供的调试与内省工具套件。例如 lcm-spy 能够以图形化方式查看网络中流通的消息，提供类似于 Wireshark 或 tcpdump 的抓包分析体验，用户可以查看各通道的详细统计信息，包括接收消息数量、消息频率（Hz）、网络抖动（ms）等关键指标，极大增强了系统的可观测性与调试效率。

图 3: Ark 可视化调试工具

用例

本节将通过一系列典型用例，展示如何使用 Ark 快速构建常见的机器人学习工作流。所有示例均提供完整代码，以便读者复现和实践。

在仿真与现实之间切换

将训练好的策略部署至真实机器人往往伴随显著的安全与工程化挑战，而许多现有框架缺乏端到端的一体化流程，导致解决方案分散、难以系统化和泛化。Ark 通过一层高度可配置的抽象机制，基于统一的 Python/C++ 驱动架构，实现了从仿真到真实系统的无缝部署。用户只需在完成环境（包括机器人、传感器、物体等）的统一定义后，于配置文件中切换 sim=True/False，即可切换至目标运行环境。

我们在 ViperX 300s 固定基座机械臂上进行了抓取 - 放置任务的实例验证。整个环境通过一份 YAML 配置文件统一指定，包括物体的初始位置、相机与机器人的位姿以及物理参数。观测值为当前关节位置指令，动作为目标关节速度。仿真和真实环境均使用同一人工编写的专家策略进行控制。在向真实机器人迁移时，仅需修改一个配置变量 sim，Ark 便在内部自动将消息通道从仿真驱动程序切换至物理硬件驱动，其余所有代码及数据结构均无需变更。

图 4: 基于统一配置的 Ark 分布式仿真系统架构，通过 YAML 文件定义机器人、传感器及组网参数，实现与真实部署一致的多节点仿真，支持策略无缝迁移

模仿学习的数据采集

模仿学习通常需要大规模的高质量演示数据，目前常见的采集方式主要包括以下两种：

徒手示教（Kinesthetic Teaching）：操作者直接通过物理引导机械臂完成动作任务。这种方式直观自然，但存在设备安全与人员操作风险；
遥操作（Teleoperation）：通过 VR 头显与手柄、游戏手柄等设备，在安全距离外对机器人进行控制。该方法避免了直接接触，但可能受限于视觉反馈质量和运动映射准确性，对操作者技能有一定要求。

得益于 Ark 高度模块化的架构和强类型消息通道机制，用户可以灵活接入不同类型的示教接口。我们利用 LCM 提供的 lcm-logger 工具实时记录所有通道的数据至日志文件。Ark 内置从日志中提取数据并转换为 CSV 格式的工具，并支持沿用环境中已定义的观测与动作通道配置，从而确保数据格式在采集、训练与最终部署阶段完全一致。

徒手示教：

以 ViperX 300s 机械臂为例，操作者可直接牵引机械臂完成目标任务，LCM 同步记录完整的关节轨迹与系统状态。尽管在该示例中相机未参与控制回路，但仍可用于录制视觉数据以供后续分析。演示结束后，记录的数据既可用于策略训练，也可通过 lcm-logplayer 进行逐帧回放，这对于处理包含人体影像（可能引入视觉偏置）或复杂物理交互的任务尤为有用。Ark 还提供了一键重置服务，例如将 “重置” 操作绑定至键盘按键，极大方便了连续多次示教与系统评估。

遥操作：

Ark 支持多种输入设备，如 VR 控制器与游戏手柄（如 PS4 手柄）。在一种典型配置中，用户通过 VR 控制器实时发送 6 自由度位姿指令，系统通过逆运动学（IK）节点将其转化为关节速度目标；另一种配置则使用手柄直接控制机械臂末端位姿。整个数据采集流程由一系列可复用的 Ark 节点协同完成，包括手柄控制节点、环境转换节点（将手柄信号转为末端目标）、IK 解算节点（将位姿转为关节指令），以及用于发布图像和关节状态的传感器节点。凭借 LCM 强类型和通道隔离的特性，更换相机或控制器时无需修改其他模块。采集完成后，用户可使用相同的通道配置从日志中提取标准化数据，直接用于训练。操作者还可通过手柄的 “X” 键快捷保存当前轨迹并触发机械臂复位至中立姿态。

图 5: lcm-logger 通过记录来自多种控制接口的演示实现高效的数据采集

模仿学习

在本节中，我们展示了若干实现模仿学习的应用案例，重点介绍如何使用 Ark 进行数据采集、训练和策略部署。我们将展示了两种模仿学习方法：（i）Diffusion Policy，（ii）ACT，Ark 作为核心基础设施，提供模块化组件、标准化接口和实时通信机制，显著简化了从数据收集到策略部署的整个流程。

Diffusion Policy 实现与部署示例：

我们在 ViperX 300s 机械臂与 Intel RealSense RGB 相机上完成了推动任务（pushing）Diffusion Policy 实验。该任务的观测空间包括机器人关节位置及连续的 RGB 图像流，动作空间为关节位置指令。在部署阶段，系统完全复用了数据采集时的架构：仅将原本的 “手柄控制节点” 替换为 “策略节点”。该策略节点从观测通道读取图像和关节状态，并通过同一动作通道发布目标末端位姿。由于执行通路与采集阶段保持一致，用户无需修改任何底层基础设施即可直接验证学习到的策略。

图 6: Viper X 300s 机械臂执行扩散策略的连续动作序列

ACT 实现与部署示例：

除扩散策略外，我们还基于 OpenPyro-A1 人形机器人平台实现了 ACT 方法的示例。通过 VR 设备进行遥操作，收集了包括 “衣服整理” 与 “物体接力” 在内的多类任务数据。通过训练得到的策略能够生成精细且包含丰富接触交互的操作行为，展现出较强的泛化与实物操作能力。

图 7: OpenPyro 使用 ACT 策略执行衣服整理和物体接力任务

移动机器人

许多现实任务（如设备巡检）要求机器人能够在环境中自主移动至多个目标点。实现该能力需同时解决两个问题：构建环境地图（建图）并在地图中实时定位自身（定位），这一过程合称为同步定位与建图（SLAM）。当地图构建完成且定位稳定可靠后，机器人即可通过路径规划算法实现导航。

我们在 Ark 中实现了一套完整的移动机器人导航流程：首先通过遥操作控制机器人运动，并利用机载 LiDAR 数据构建地图；建图完成后，使用 A* 算法进行全局路径规划，并结合距离变换技术确保与障碍物保持安全距离；最后通过 PD 控制器跟踪路径点，生成差速驱动所需的轮速指令。

建图：

为实现建图与定位，Ark 提供了一套 “遥操作辅助 SLAM” 流程，包含两个核心节点：遥操作控制器与概率 SLAM 模块，两者通过消息通道通信。用户通过遥操作节点发送线速度和角速度指令，这些指令经 Ark 动作通道发送至底层控制器，转换为左右轮速。同时，LiDAR 数据与控制指令被实时发送至 SLAM 节点，用于融合估计机器人位姿并构建地图。我们采用基于 Rao–Blackwellized 粒子滤波的 FastSLAM 方法：每个粒子同时维护位姿估计和一个占据栅格地图，栅格概率取值从 0（空闲）到 1（占据）。系统结构如图 8 所示。

图 8：Husky 机器人在 Ark 工具支持下于厨房环境实现 SLAM 建图与导航

导航：

在已知地图且能可靠定位的基础上，机器人可进行运动规划。我们集成 A* 算法作为全局规划器。规划器接收目标点位置和 SLAM 生成的占据栅格地图。首先通过阈值将地图二值化，再计算距离变换图以获取每个栅格到最近障碍物的距离，确保路径满足 “半车宽 + 安全裕量” 的避障要求。A* 输出一条平滑的避障路径，表示为一系列笛卡尔路标点 (x,y)，并按设定分辨率进行下采样以提高执行效率。控制子系统根据实时位姿和路径点序列逐点跟踪：先调整机器人朝向，再沿直线移动至当前路标，进入容差范围后自动切换下一目标。最终输出线速度和角速度，并转换为差速驱动的轮速指令。

xx智能

大语言模型（LLM）与视觉 - 语言模型（VLM）显著提升了机器人的高层推理能力。Ark 凭借其模块化设计与 Python 优先的架构，天然适合将 LLM/VLM 作为高层策略选择器集成到机器人控制回路中。

我们在 Viper 机械臂上构建了一个基于 LLM 的智能体系统（图 9），采用 DeepSeek-R1 作为底层模型，遵循 “代码即策略（code-as-policy）” 范式：将 “抓取”“按位置放置”“移除物体” 等操作封装为可参数化的策略函数。这些函数组成策略库供 LLM 调用，模型根据任务上下文从库中选择合适技能并生成代码执行。

Ark 将整个系统解耦为感知、语言推理与运动执行等多个独立节点。DeepSeek 被封装为一个服务节点，接收结构化提示词（包含场景观测、可用函数和任务描述）并返回推理结果。每一步决策中，感知节点将棋盘状态、图像等观测数据发布到消息通道，经整理后通过服务调用发送至 LLM 节点，触发一次策略生成。

图 9：Ark 框架通过集成 DeepSeek 大模型赋予 Viper 机械臂国际象棋对弈能力

未来工作和总结

展望未来，Ark 计划重点发展两大方向：一是强化强化学习（RL）基础设施，通过原生集成 Stable Baselines3 和 RLlib 等主流框架，支持并行环境执行，并提供统一的环境抽象接口，实现在仿真与真实机器人之间高效训练、评估和部署 RL 策略；二是提升高保真仿真能力，在现有 PyBullet 和 MuJoCo 支持的基础上，进一步引入域随机化、可微物理等关键特性，增强策略的鲁棒性和仿真到现实的迁移效果，同时与高性能仿真后端深度集成，构建更精确、可扩展且功能丰富的模拟环境。

Ark 以现代化、模块化和用户友好的架构，致力于在机器人学与机器学习之间建立高效桥梁：既大幅降低了真实机器人部署的技术门槛，又保持了面向前沿研究的灵活性与扩展性。随着仿真性能的提升、RL 生态融合的深化以及工具链的持续完善，Ark 有望发展成为支撑xx智能研究的重要通用平台，推动机器人学习社区不断向前迈进。

表 1：Ark 与同类框架的功能对比，红色圆圈表示该框架不支持该特性

....

#Optical generative models

用光学生成图像，几乎0耗电，浙大校友一作研究登Nature

见过省电的模型，但这么省电的，还是第一次见。

在《自然》杂志发表的一篇论文中，加州大学洛杉矶分校 Shiqi Chen 等人描述了一种几乎不消耗电量的 AI 图像生成器的开发。

该生成器是一种受扩散模型启发的光学生成模型。其工作原理如下：首先通过数字编码器（使用公开数据集训练）生成最终构成图像的静态噪声，这一过程仅需消耗极少能量。随后，一种被称为空间光调制器（SLM）的液晶屏幕会将这种噪声模式刻印到激光束上。该激光束再通过第二台解码 SLM 装置，将光束中的噪声模式转化为最终图像。

与传统 AI 依赖数百万次计算机运算不同，该系统利用光完成所有核心工作，因此几乎不消耗电能。论文第一作者 Shiqi Chen 表示：「我们的光学生成模型几乎无需算力就能合成海量图像，为数字 AI 模型提供了可扩展且高能效的替代方案。」

研究人员采用多种 AI 训练图像对系统进行测试，包括名人肖像、蝴蝶图像以及梵高风格的全彩画作。结果显示，光学系统生成的图像效果与传统图像生成器相当，但能耗显著降低。

该技术还具有广泛的应用前景。凭借其超高速和超低能耗特性，该系统可用于生成 VR、AR 显示的图像视频，也适用于智能手机、AI 眼镜等可穿戴电子设备的小型化终端。

论文标题：Optical generative models
论文地址：https://www.nature.com/articles/s41586-025-09446-5#MOESM1

不过，该模型目前仍处于物理实验阶段，离实用还有一段距离。

方法概览

本文提出的光学生成模型，能够根据目标数据分布合成单色或彩色图像 —— 即通过光学方法生成特定数据分布中前所未见的新图像。受扩散模型启发，该方案采用浅层数字编码器将随机二维高斯噪声模式快速转换为代表光学生成种子的二维相位结构。这种光学种子的产生是一次性的，它涉及一个作用于随机二维噪声模式的浅而快速的相位空间编码器。

根据目标分布即时生成图像或输出数据的过程，可通过随机调用这些预先计算好的光学生成种子按需实现。这一广义概念可通过不同光学硬件实现，集成光子学或基于自由空间的实现。

即时图像生成

图 1 展示了作者研发的单色图像即时生成模型的原理示意图。如图 1a 所示，遵循正态分布的随机二维输入首先通过数字编码器转换为二维相位模式，该编码器可快速提取潜在特征并将其编码至相位通道以供后续模拟处理。这些由随机噪声生成的相位编码输入作为光学生成种子，被加载到 SLM 中，为衍射光学生成模型提供信息输入。在相干光照下，携带编码相位模式的光场继续传播并通过为特定目标数据分布优化的衍射解码器进行处理。最终，生成的图像由图像传感器捕获，这些图像符合目标数据分布特征。

图 1b 展示了训练流程：作者首先基于去噪扩散概率模型（DDPM）训练教师数字生成模型以学习目标数据分布。完成训练后，冻结该 DDPM 模型并持续生成用于训练即时光学生成模型的噪声 - 图像数据对。浅层数字相位编码器与光学生成模型通过联合训练，使模型能够以简洁可重构的架构高效学习目标分布。

图 1c 呈现了盲推理过程：由数字编码器从随机噪声模式产生的编码相位模式（即光学种子）是预先计算的，光学生成模型则使用固定的静态解码器在自由空间中对这些生成相位种子进行解码。为实现从随机高斯噪声快速合成光学生成相位种子，数字编码器包含三个全连接层，其中前两层采用非线性激活函数（详见方法部分）。可重构衍射解码器通过 400 × 400 个可调相位特征（每个特征覆盖 0-2π 范围）进行优化，完成优化后针对每个目标数据分布保持静态。

图 1

迭代式光学生成模型

作者还设计了一种迭代式光学通用模型，可从高斯噪声中递归重建目标数据分布。如图 2a 所示，该迭代光学生成模型同样工作在三个照明波长下，通过浅层数字相位编码器编码的多通道相位图案被顺序加载到同一 SLM 上。

为展示这种迭代光学模型的生成能力，作者采用 Lₒ=5 个联合优化并固定的解码层来处理目标数据分布。与前述即时光学生成模型的不同之处在于：当图像传感器平面记录初始强度图像后，测量结果会按设计方差添加高斯噪声，该噪声扰动结果将作为下一时间步的迭代光学输入。

图 2b 展示了这种迭代光学生成模型的训练过程：采样一批时间步并相应地向原始数据添加噪声，获得噪声样本。这些噪声样本经过浅层数字编码器和迭代光学生成模型处理，得到连续输出。与标准 DDPM 实现不同，该迭代光学生成模型直接预测去噪样本，其损失函数根据原始数据计算。

图 2c 概述了迭代式光学生成模型的盲推理过程：已训练的光学模型对从最终时间步到初始时间步的扰动样本递归执行去噪操作，最终生成的图像在传感器平面捕获（详见方法部分）。

图 2

实验及结果

在初步实验中，研究者分别基于 MNIST 和 Fashion-MNIST 数据集训练了两个不同的模型，用于生成手写数字和时尚商品图像。

图 3c 为两个模型的结果，生成的图片在 MNIST 和 Fashion-MNIST 数据集上分别达到了 131.08 和 180.57 的 FID 实验评分。这表明生成的图片符合这两个数据集的目标分布，充分体现了所设计系统的多样性，进一步验证了快照式光学生成模型的可行性。

，时长00:30

生成手写数字

，时长00:30

生成时尚商品

研究者进一步将实验结果拓展至更高分辨率的梵高风格艺术作品生成。

图 4 与图 5 分别展示了使用 5.8 亿参数数字编码器实现的高分辨率单色及彩色（RGB）图像生成实验结果。其中梵高风格单色图像采用 520 纳米波长照明生成，而彩色图像则依次使用 {450, 520, 638} 纳米波长分别对应蓝、绿、红三通道。

在多色梵高风格艺术图像生成实验中，研究者为每个波长通道生成了相应的相位编码生成种子图案，并依次加载到空间光调制器（SLM）上。在对应波长的照明下，利用固定或静态的衍射解码器生成多彩图像，并通过数字方式进行融合。换言之，在所有波长照明下的图像生成过程中，系统共享同一个解码器状态。

图 5 展示了多色梵高风格艺术作品的生成结果，其中既包含与教师数字扩散模型输出高度吻合的案例，也包含具有差异性输出的示例（该教师模型需使用 10.7 亿可训练参数并通过 1000 次迭代步骤生成单幅图像）。尽管观察到轻微的色差现象，生成的高分辨率彩色图像仍保持了优异的质量。

作者介绍

Shiqi Chen，加州大学洛杉矶分校（UCLA）博士后研究员，导师为 Aydogan Ozcan 教授。此前，他在浙江大学获得博士学位，师从冯华君教授和徐之海教授。

Shiqi Chen 在博士期间主要研究重点是应用光学和计算机视觉，以实现更清晰的计算成像，其中部分研究成果已应用于最新的移动终端设备。

个人主页：https://tangeego.github.io/

...

#OpenVision 2

大道至简的生成式预训练视觉编码器

本文来自加州大学圣克鲁兹分校（UCSC）、苹果公司（Apple）与加州大学伯克利分校（UCB）的合作研究。第一作者刘彦青，本科毕业于浙江大学，现为UCSC博士生，研究方向包括多模态理解、视觉-语言预训练与视觉基础模型。其余作者包括李先航（UCSC）、张乐天（USCS）、王子瑞（Apple）、郑泽宇（UCB）、周郁音（UCSC）。通讯作者为UCSC的谢慈航教授。

在多模态大模型快速演进的浪潮中，视觉模块一直是支撑整个体系的关键基石。长期以来，CLIP 式的图文对比学习几乎成为视觉预训练的默认思路。从 OpenAI 的 CLIP 到 Google 的 SigLIP，再到一系列开源复现，业界普遍认为：想要获得强大的视觉编码器，就必须依赖对比学习。

近日，来自加州大学圣克鲁兹分校、苹果公司、加州大学伯克利的研究者提出了 OpenVision 2，一种极简的生成式视觉预训练新方向。这项工作在保持最优性能的同时，大幅提升了训练效率，并在生成式框架下实现了 10 亿参数规模的可扩展训练。

✍🏻️论文标题：OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

📄 论文地址：arXiv:2509.01644

🌐 项目主页：https://ucsc-vlaa.github.io/OpenVision2

💻 代码与模型：GitHub · UCSC-VLAA/OpenVision

🤗 Hugging Face 模型库：OpenVision 2 on HuggingFace

从 OpenVision 到 OpenVision 2

今年早些时候，研究团队在 ICCV 发布了 OpenVision，这是一个完全基于公开数据和开源代码训练的视觉编码器家族，旨在为社区提供真正开放、透明、可复现的视觉骨干。

该项目一次性开源了超过 25 个预训练模型，参数量从 590 万到 6 亿+，覆盖多种 patch size 与分辨率设置，成为学术界和产业界构建多模态模型时的重要替代方案。

实验显示，OpenVision 在多个多模态基准任务上已经可以媲美甚至超越 OpenAI 的 CLIP 以及 Google 的 SigLIP，为社区提供了可靠的开源替代。

然而，OpenVision 的训练管线仍然偏复杂。为了充分利用高质量的合成描述，它在 CLIP 的基础上引入了两方面额外设计：

双重对比目标：每张图像既要和 web caption 对齐，又要和部分合成 caption 对齐，导致文本编码器的计算量几乎翻倍，训练成本也随之显著增加。
生成式 caption 预测：模型还需要在图像和原始 alt-text 的条件下，生成完整的合成描述，这进一步增加了解码器的计算开销。

这些设计确实提升了表征质量，但也让训练过程变得更重，计算成本更高，扩展到更大规模时受到明显限制。

极简思路：生成式的 OpenVision 2

在 OpenVision 2 中，研究者们做出了大胆简化：直接移除文本编码器与对比学习，只保留「图像 → 描述」的生成目标。由此形成的框架仅包含两个模块：图像编码器 + 文本解码器。

没有对比学习的双塔结构
没有额外的文本塔开销
依赖高质量合成描述作为唯一监督信号

除此之外，OpenVision 2 还引入了一个关键技巧：在预训练阶段随机丢弃约 2/3 的视觉 token，仅用剩下的 1/3 token 来生成完整描述。

一方面，这大幅减少了文本解码器的计算负担，显著提升了训练效率；
另一方面，这种「稀疏提示」迫使模型在有限条件下仍要还原出完整的 caption，从而提升了表征的抽象能力。

这种「以少胜多」的思路，使得 OpenVision 2 在保持性能的同时实现了更高的效率，也印证了「少即是多」的理念。

实验表明，这一简化设计不仅没有削弱模型能力，反而在效率与扩展性上表现突出：

性能：在 TextVQA、ChartQA、OCR、MME 等主流多模态基准上，OpenVision 2 与 OpenVision 几乎持平，甚至在部分细粒度任务上表现更佳。同时，相较于 OpenAI-CLIP、LAION-CLIP、MetaCLIP 等主流对比学习模型，OpenVision 系列在同等规模下整体表现更强，特别是在 OCR 与文本相关任务上优势明显。

效率：训练时间缩短 1.5——2 倍，显存占用减少近一半，单卡批大小从 2k 扩展到 8k；例如，在 ViT-L/14 上从约 83 小时缩短到 57 小时，在 SoViT-400M 上从约 241 小时缩短到 121 小时。这些改进使得模型在生成式框架下成功扩展到 10 亿参数规模，并保持高效训练，也为进一步探索更大规模的生成式视觉预训练奠定了基础。

为什么有效？

研究者总结了 OpenVision 2 作为生成式视觉编码器能够成功的三点关键原因：

生成式监督更贴近下游：生成任务与多模态大模型（如 LLaVA）的推理方式一致，减少了预训练与下游任务间的「目标错位」。
高质量合成描述：在 Recap-DataComp-1B v2 中，caption 的生成同时结合了图像和原始文本，使得描述更细致、更贴合语义，为预训练提供了更可靠的监督信号。
视觉 token 随机掩码（少即是多）：仅保留部分视觉 token 进行生成，既降低算力开销，又让模型在「信息不完整」的条件下学会抽取核心特征，从而提升泛化与鲁棒性。

对社区的意义

OpenVision 2 展示了一个重要事实：对比学习并非不可或缺。通过生成式的简洁框架，同样能够训练出强大的视觉编码器，并在效率和可扩展性上具备显著优势。

这项研究不仅挑战了长期以来的对比学习主导范式，也为未来多模态基础模型的发展提供了新的方向。正如作者们所强调的，「大道至简」的设计理念，展示了生成式视觉预训练在未来发展的潜力。

从 OpenVision 到 OpenVision 2，研究团队已经开源了超过 25 个不同规模和配置的模型，并完整公开了训练代码与数据管线，为学术界和产业界提供了可复现、可扩展的资源基础，加速社区在生成式视觉预训练方向上的探索。研究团队长期欢迎学界和业界的同学和朋友联系、交流、合作。

#gPass

数字生活的原生入口：蚂蚁集团发布AI眼镜全新技术框架

日前，在 2025 Inclusion・外滩大会上，蚂蚁集团发布了全球首个智能眼镜可信连接技术框架 ——gPass。该技术具备「安全、交互、连接」三大核心能力，致力于实现 AI 眼镜与智能体之间安全、可信、即时信息交互，为用户打造自然无感的服务体验，同时构建起面向眼镜厂商和开发者的安全 AI 数字服务生态。

AI 眼镜的核心价值，在于它将成为「AI 原生入口」，彻底重构数字生活服务模式。这种重构体现在三个维度：

第一，服务形态从「平面感知」走向「空间认知」—— 依托空间计算技术，数字信息与物理环境深度融合，让服务不再局限于屏幕，而是融入现实场景；比如：高德地图与 AI 眼镜合作的导航让路线指引直接叠加在真实街道上，数字信息与物理环境深度融合；

第二，交互方式从「线性指令」走向「感官交互」—— 基于多模态交互与理解，让人与设备的沟通更自然、更高效；比如：蚂蚁发布的 "看一下支付" 功能，通过目光与语音即可完成交易，真正实现 "所见即所得"；

第三，体验模式从「垂直场景」走向「生活服务」—— 通过环境感知，在博物馆参观时自动推送展品讲解，在商场购物时实时显示商品评价，设备能提供个性化、主动式服务，让每一位用户都能获得专属的智能体验。

但 AI 眼镜的生态目前仍存在「缺角」—— 要通向成熟的数字服务生态，还缺少关键的「基石」与「桥梁」。

具体来说，行业面临三大难题：

一是端到端软硬件能力碎片化，基础设施薄弱，整体软硬件架构尚未形成统一标准；软硬件研发难度大成本高。

二是用户需求日益多元化，但针对 AI 眼镜的原生应用却严重缺乏，难以满足场景化需求；

三是移动互联网服务向智能化服务升级难度大，延缓了技术普及速度。

为此，蚂蚁集团推出 AI 眼镜可信连接技术框架 gPass，正是为解决这些生态痛点而生。gPass 的核心目标，是为 AI 眼镜产业链的各个合作伙伴 —— 包括智能体开发者、ODM/OEM 厂商、芯片厂商、品牌厂商、AI 服务厂商 —— 提供「安全可信的服务连接」。

该技术具备「安全、交互、连接」三大核心能力，致力于实现 AI 眼镜与智能体之间安全、可信、即时信息交互，为用户打造自然无感的服务体验，同时构建起 AI 眼镜上的可信的 AI 数字服务生态。

从「安全」维度来看，gPass 实现了基于生物核身的可信身份流转，在用户使用 AI 眼镜调用各项服务时，设备与用户身份都具有唯一的、可信的绑定关系，如此一来，设备更了解用户，从而提升用户体验。

此外，gPass 还构建了基于硬件可信根的端到端安全通信连接，打造全链路跨多端的软硬结合可信终端方案，根据不同设备的软硬件环境，gPass 在手机端和眼镜端都构建了一套可信隐私沙盒体系，在用户通过 gPass 使用各类数字服务时，首先会在用户的眼镜和手机之间建立一条数据传输的安全通道，相关的数据传输（包括用户账户信息、用户声纹等）都由这条安全通道保障数据传输的机密性和完整性，同时眼镜端和手机端的用户账户信息、付款码信息都通过可信隐私沙盒进行安全存储，防止数据泄露。

从 "交互" 维度来看，gPass 提供视频图像声音多模态理解技术，声纹作为核心验证因子，首次实现智能眼镜端支付功能，通过持续语音交互完成无感核验；虹膜技术凭借眼镜天然搭载优势，实现非接触式无感核身，在未来的数字生活服务场景中，具有十分广阔的应用空间；指纹验证作为底层基础能力，已积累十亿级数据模型。

除此之外，gPass 还研发了跨 Android 与 RTOS 的渲染解决方案，弥补当前基础设施层面的不足，确保不同设备间的交互流畅自然，gPass 还与诸多科研团队和行业伙伴，共同探索面向未来的手势识别等技术，成熟一个就会集成一个，通过 gPass 技术架构面向行业开放。比如未来在远程会议场景中，AI 眼镜能同时处理语音指令、手势操作和屏幕内容，让沟通效率倍增。跨端精准同步的消息推送则解决了多设备信息不同步的痛点，重要通知总能在最合适的终端及时呈现。

最后，也是对于 AI 眼镜生态来说最重要的，就是「连接」，既包含了以 AI 眼镜为核心的多端互联，也包含了 AI 眼镜上未来最有可能的服务载体 ——Agent 之间的连接。

gPass 能实现多端互联，通过 AI 完成对用户需求识别后，顺畅连接手机、智能汽车、智能家居，智能可穿戴设备，保障服务与身份在多终端下可信、丝滑流转；支持多模态大模型的原生交互，让 AI 能力无缝融入；更关键的是，它能接入蚂蚁生态下的海量智能体，涵盖支付、出行、文旅、金融、医疗等多个高频生活场景，为 AI 眼镜补足服务生态短板。

通过 gPass 的跨端同步、消息优化及多模态提醒等功能，AI 眼镜能够快速的帮助用户完成一个复杂任务的闭环，带来更高效自然的体验。

目前，gPass 已率先应用于 rokid、小米、夸克、雷鸟等眼镜品牌，实现「看一下支付」，未来还将在文旅、出行、医疗等场景中释放更多技术潜能。比如在医疗健康场景，通过 gPass，用户可通过 AI 眼镜便捷地使用健康咨询、AI 问诊、就诊提醒、药品解读等服务，在保障隐私的前提下，实现无感、伴随式的健康陪伴新体验。

蚂蚁集团表示，希望 gPass 能成为 AI 眼镜行业的「加速器」—— 通过与全产业链伙伴深度协作，一起把成熟、易用的 AI 眼镜快速带给每一位大众消费者。最终，我们将与整个行业携手，为用户提供更便捷、更自然、更安全的数字生活服务，推动 AI 眼镜完成从「单一工具」到「完整生态」的质变，让这项技术真正能够给用户带来如丝般顺滑的数字生活服务新体验。

#Kling-Avatar

从「对口型」到「会表演」，刚进化的可灵AI数字人，技术公开了

让数字人的口型随着声音一开一合早已不是新鲜事。更令人期待的，是当明快的旋律响起，它会自然扬起嘴角，眼神含笑；当进入说唱段落，它会随着鼓点起伏，肩膀与手臂有节奏地带动气氛。观众看到的不再只是嘴在动，而是整个人在表演。这种表现不仅限于几个片段，而是能够稳定地延续到分钟级长视频中，在整段时间里保持动作自然、镜头流畅。

近日，快手可灵团队把这一构想带到了现实。全新数字人功能已在可灵平台开启公测，目前逐步放量中。技术报告 Kling-Avatar 与项目主页也已同步发布。报告系统解析了可灵数字人背后的技术路径，阐明如何让一个只能跟着声音对口型的模型，进化为能够按照用户意图进行生动表达的解决方案。

null

可灵数字人产品界面。网址：https://app.klingai.com/cn/ai-human/image/new

null

论文地址：https://arxiv.org/abs/2509.09595
项目主页：https://klingavatar.github.io/

首先看一些效果：

，时长00:19

，时长00:32

，时长00:05

实现这些惊艳效果的背后，是快手可灵团队精心设计的一套多模态大语言模型赋能的两阶段生成框架。

多模态理解，让指令变成可执行的故事线

借助多模态大语言模型在生成与理解一体化上的能力，Kling-Avatar 设计了一个多模态导演模块（MLLM Director），把三类输入组织成一条清晰的故事线：从音频中提取语音内容与情感轨迹；从图像中识别人像特征与场景元素；将用户的文字提示融入动作方式、镜头语言、情绪变化等要素。导演模块产出的结构化剧情描述，通过文本跨注意力层注入到视频扩散模型中，生成一段全局一致的蓝图视频，明确整段内容的节奏、风格与关键表达节点。

null

Kling-Avatar 方案框架。由多模态大语言模型 (MLLMs) 赋能的 MLLM Director 首先将多模态指令解释为全局语义和连贯的故事线，基于该全局规划生成一个蓝图视频，然后从蓝图视频中提取首尾帧作为条件控制，并行生成子段视频。

两阶段级联生成的长视频生成框架

蓝图视频生成后，系统在视频流中根据身份一致性、动作多样性、避免遮挡、表情清晰等条件，自动挑选若干高质量关键帧。每相邻两帧作为首尾帧条件，用于生成一个子段落。所有子段落根据各自的首尾帧并行合成，最后拼接得到完整视频。为避免首尾帧处画面与实际音频节拍的错位，方法还引入音频对齐插帧策略，保证口型与声学节奏的帧级同步。

此外，团队还精心设计了一系列训练和推理策略，保证视频生成过程中音频与口型的对齐和身份一致性：

口型对齐：将音频切分成与帧片段对齐的子段，通过滑窗方式注入音频特征；自动检测嘴部区域加权去噪损失；通过对视频帧做手动扩展，增强画面中人脸占比较小情况下的对齐效果，进一步提升口型对齐任务在远景场景下的适应能力。
文本可控性：冻结文本跨注意力层参数，避免基座视频生成模型在专门数据上过拟合而弱化文本控制。
身份一致性：在推理阶段对参考图像构造 “退化负样本”，作为负向 CFG，抑制纹理拉花、饱和度漂移等身份漂移模式。

训练与测评数据管线

为了获得多样高质量的训练数据，团队从演讲、对话、歌唱等高质量语料库中收集数千小时视频，并训练多种专家模型用于从嘴部清晰度、镜头切换、音画同步与美学质量等多个维度检测数据的可靠性。对专家模型筛选出的视频，再进行一遍人工复核，得到数百小时高质量训练数据集。

为了验证方法的有效性，团队制作了一个包含 375 个 “参考图–音频–文本提示” 的测评基准，该测评基准包含了丰富的输入样例，图片涵盖真人 / AI 生成图像、不同人种、以及开放情境中的非真人数据；音频涵盖中 / 英 / 日 / 韩等多种语言，包含不同语速和情感的台词；文本提示包含多种多样的镜头、人物动作、表达情绪控制。该测评基准为现有方法提供了极具挑战性的测试场景，能够充分评估数字人像视频生成方法在多模态指令跟随方面的能力，将在未来开源。

实验结果对比

在定量验证方面，团队精心设计了一套基于用户偏好的 GSB（Good/Same/Bad）测评体系。对每个样本，由三名评测者将 Kling-Avatar 与对比方法逐一比较，给出 “更好”（G)，“一样”(S)，“更差”(B) 的判断。最终汇报 (G+S)/(B+S) 作为指标，用以衡量 “更好或不差” 的占比。同时在四个维度给出分项结果：总体效果、口型同步、画面质量、指令响应、身份一致。对比方法选择最先进的 OmniHuman-1、HeyGen 等产品。

null

在构建的测评基准上与 OmniHuman-1 和 HeyGen 的 GSB 可视化对比。Kling-Avatar 在绝大多数维度上取得领先。

null

在全部 Benchmark 和各个子测评集的 GSB 指标对比。Kling-Avatar 全面超过 OmniHuman-1，并在绝大部分指标上超过 HeyGen。

在多种场景的对比测试中，Kling-Avatar 所生成的唇形不仅在时序和形态上与音频高度一致，面部表情也随着语音的起伏变化而更显自然。即使在发音难度较高的音节（如 “truth”，其标准发音为 [truːθ]，[u:] 要求双唇前突、口型小而紧）或高频语音中的短暂静音段落，Kling-Avatar 均能够准确还原相应的口型状态。

null

在 “情绪、动作、镜头” 三类控制上，Kling-Avatar 能够更准确地体现文本提示中的意图，在歌唱、演讲等复杂场景下的动作与镜头调度更加贴合语义。下图展示了 Kling-Avatar 生成的一些视频示例，其中包含了人物的情绪控制如 “兴奋”，镜头控制如 “镜头缓慢上移”，生成结果均有良好的响应。

null

Kling-Avatar 的另一大优势是长时视频生成。因为采用两阶段生成 + 级联并行生成的框架，因此在首先获得蓝图视频后，可以从蓝图视频中选择任意多数量的首尾帧，并行生成每个子段视频，最后再完整拼接在一起，总生成时间理论上与一段生成时间相当，因此可以快速稳定的生成长视频。下图展示了 1 分钟长视频生成的例子，生成结果在动态性，身份一致性保持，口型等各方面都获得了令人满意的结果。

null

总结

从 “对口型” 迈向 “会表演”，快手可灵团队探索出一条全新的数字人生成范式，实现了在分钟级长视频中生动细腻、情绪饱满、身份一致的影视级演绎。Kling-Avatar 现已集成到可灵平台，欢迎移步可灵平台体验新版数字人应用，看看你的声音和想法如何被一镜到底地演绎出来。

近年来，快手可灵团队持续深耕多模态指令控制与理解的数字人视频生成解决方案。除了 Kling-Avatar，团队前不久还提出实时多模态交互控制的数字人生成框架 MIDAS，二者分别在 “表达深度” 与 “响应速度” 上实现了重要突破。未来，团队将持续推进高分辨率、精细动作控制、复杂多轮指令理解等方向的前沿探索，致力于让数字人的每一次表达，都拥有真实而动人的灵魂。

...