Helix:一种用于通用人形控制的视觉语言行动模型
目录
1. 介绍Helix
1.1 多机器人协作(Multi-Robot Collaboration)
1.2 零样本泛化(Zero-Shot Generalization)
1.3 长视距任务(Long-Horizon Tasks)
1.4 商业部署可行性
2. 机器人行为扩展
3. “System 1,System 2”VLA模型--HELIX
3.1 传统方面的矛盾
3.2 Helix 的突破:双系统分工与协作
系统2(S2):慢思考,强泛化
系统1(S1):快执行,高精度
3.3 双系统协作的典型案例
4. 模型和训练细节
4.1 数据
4.2 Helix系统架构
4.2.1 S2
4.2.2 S1
4.3 训练
4.4 Optimized Streaming Inference(优化后的流式推理过程)
5. 成果
5.1 精细化的VLA整个上半身控制
5.2 零样本学习多机器人协作
5.3 拾取万物
6. 讨论
6.1 Helix的高效训练
6.2 一组统一的权重参数
问题思考
1. 可行性与适合性
2. 具体细节
3. 局限性
1. 介绍Helix
Helix是一种通用视觉-语言-动作(VLA)模型
1.1 多机器人协作(Multi-Robot Collaboration)
-
Helix 允许 两个机器人共享同一套神经网络权重,无需针对特定机器人进行单独训练或调整168。
-
它们可以 通过自然语言指令协调行动,例如:
-
“将一袋饼干递给你右边的机器人”
-
“从你左边的机器人手中接过一袋饼干并放入打开的抽屉”18。
-
-
这种协作能力意味着 任务可以并行执行,提高了效率,适用于家庭或仓储等需要多机器人协同工作的场景。
1.2 零样本泛化(Zero-Shot Generalization)
-
Helix 能够操作 训练数据中从未出现过的物品,如不同形状、大小、材质的家居用品。
-
例如,在演示中,机器人可以 识别并抓取“沙漠中的物品”(如玩具仙人掌),尽管它从未在训练中见过该物体。
-
这种能力依赖于 视觉语言模型(VLM)的语义理解,使其能够将抽象指令(如“保鲜食品”)映射到具体动作(如“放入冰箱”)。
1.3 长视距任务(Long-Horizon Tasks)
长视距任务:需要多步骤规划、持续执行和动态调整的复杂任务,通常涉及较长时间跨度的操作,需将整体目标分解为多个子任务,并在执行过程中根据环境反馈不断优化策略。
-
传统机器人通常只能执行 短序列动作(如“抓取-放置”),而 Helix 可以完成 多步骤复杂任务,如:
-
打开冰箱 → 放入食品 → 关闭冰箱
-
与另一机器人交接物品 → 分类存储。
-
-
这种能力得益于 “系统1(快速控制) + 系统2(高级规划)”的双系统架构:
-
系统2(S2)(7-9Hz):负责高层次任务分解和语义理解。
-
系统1(S1)(200Hz):执行实时动作控制,确保流畅操作
-
1.4 商业部署可行性
-
Helix 是首个 完全在嵌入式低功耗 GPU 上运行的 VLA,这意味着它可以 直接应用于实际机器人,而无需依赖云端计算。
-
这种设计使其适用于 家庭、仓储、零售等场景,能够快速响应指令并执行任务。
2. 机器人行为扩展
1. 传统方法依赖 “PhD hours”(即人工专家时间):
- 每增加一个新任务(如抓取新物体或执行新动作),都需要工程师或研究人员手动编程或调整算法。
- 扩展效率低,成本高,且难以规模化。
-
让机器人学会“开冰箱”可能需要研究人员花费数周时间编写代码和调试。
-
2. 数据驱动方法(FLEET MODEL):
-
依赖 “Collected Data”(收集的数据)。
-
通过大规模数据训练(如模仿学习或强化学习),机器人可以学习新任务,但 仍需针对新任务收集特定数据。比传统方法更高效,但仍需数据采集和训练成本。
-
要让机器人学会“整理桌面”,可能需要先收集大量人类演示的桌面整理视频。同理想让
-
3. Helix + Fleet Model(新型方法):
-
“No programming or demonstrations”(无需编程或演示)。
-
Helix 作为 视觉-语言-动作(VLA)模型,可以直接通过 自然语言指令 理解并执行新任务,无需额外编程或数据收集。
-
利用将视觉语言模型(VLM)中捕获的丰富语义知识直接翻译成机器人动作,实现 零样本(zero-shot)任务扩展。
-
用户只需说“把易腐烂的食品放进冰箱”,Helix 就能自动分解任务(识别食品、打开冰箱、放置物品),即使它从未在训练中见过该指令或具体物品。
-
关键在于:如何从VLM中提取所有这些常识知识并将其转化为可推广的机器人控制?----HELIX
3. “System 1,System 2”VLA模型--HELIX
Helix 首次将 丹尼尔·卡尼曼的“双系统理论”应用于机器人控制:
-
系统2 对应“慢思考”(理性分析),系统1 对应“快执行”(直觉反应)。
3.1 传统方面的矛盾
-
视觉语言模型(VLM):
基于大规模预训练的模型(如 CLIP、GPT-4V)具备强大的 语义理解 和 零样本泛化能力(例如识别“从未见过的沙漠风格杯子”),但推理速度慢(通常 <10Hz),无法满足机器人 实时控制需求(需 >100Hz)。 -
专用控制策略:
传统机器人视觉运动策略(如强化学习策略)能以 200Hz 以上频率 输出高精度动作,但仅针对特定任务设计,泛化能力极差(例如无法处理新物体或复杂指令)。
矛盾本质:通用性与实时性不可兼得,传统方法需在两者间妥协。
传统方法试图用单一模型兼顾语义与控制,而 Helix 通过 解耦+端到端联合训练,使两个系统既能独立优化,又能无缝协作。
3.2 Helix 的突破:双系统分工与协作
Helix 通过解耦 “慢思考”(语义规划)与 “快执行”(实时控制),让两个系统在各自最优频率下协同工作:
系统2(S2):慢思考,强泛化
-
功能:
-
基于预训练的 视觉语言模型(VLM)(如类似 PaLM-E 的架构),负责 场景理解(识别物体、空间关系)、任务分解(将“整理桌子”拆解为多步骤)和 语义推理(例如“易腐烂食品”需放入冰箱)。
-
输出 潜在语义表示(如目标位置、抓取策略、协作指令)。
-
-
性能:
-
运行频率 7-9Hz,适合处理复杂逻辑与长视距规划。
-
支持 零样本泛化(无需额外训练即可操作新物体或理解新指令)。
-
系统1(S1):快执行,高精度
-
功能:
-
轻量级 视觉运动策略,将 S2 的语义输出(如“抓取杯口,避开水渍”)转换为 200Hz 的连续关节控制信号(如机械臂轨迹、手指力度)。
-
实时应对动态变化(如物体滑动、合作机器人动作调整)。
-
-
性能:
-
高频闭环控制确保 毫米级精度(如抓取光滑玻璃杯)。
-
端到端训练保证与 S2 的 语义一致性(避免规划与执行脱节)。
-
3.3 双系统协作的典型案例
任务:多机器人协作传递“装满水的杯子”
-
S2(慢):
-
解析指令:“将水杯递给右侧机器人,避免倾洒”。
-
识别水杯材质(玻璃)、水面高度、合作机器人位置。
-
规划动作序列:抓握杯口→匀速平移→对准交接点→释放。
-
-
S1(快):
-
以 200Hz 实时调整机械臂轨迹,抵消合作机器人微小位置偏差。
-
动态调节夹持力度,防止玻璃杯滑落或碎裂。
-
监测水面波动,微调移动速度以避免倾洒。
-
Helix 的 “System 1(快执行) + System 2(慢思考)” 架构既不是单纯的“边思考边执行”,也不是完全“思考完才执行”,而是通过 分阶段协作 实现 动态规划与实时执行的融合。
-
S2(慢思考):
以 7-9Hz 的频率 持续更新高层次任务分解和语义目标(例如“整理桌子→抓取杯子→放入水槽”)。-
输出 阶段性规划(如“下一步需移动到水槽旁”),而非一次性完成所有步骤。
-
-
S1(快执行):
以 200Hz 的频率 实时执行当前已知的规划片段(如“控制机械臂向水槽移动”),同时 动态接收 S2 更新的指令。
类比人类行为:
-
当你说“我要去厨房倒水”,大脑(S2)会先规划“走向厨房→拿杯子→开水龙头”,但腿部(S1)会立即开始移动,无需等待所有步骤完全规划完毕。
Helix 的协作模式类似于 模型预测控制(MPC):
-
S2 生成短期目标(例如未来 0.5 秒的任务片段)。
-
S1 立即执行该片段,同时 S2 并行规划下一个片段。
-
动态调整:若环境变化(如杯子被碰倒),S2 会重新规划后续步骤,而 S1 实时修正当前动作。
4. 模型和训练细节
4.1 数据
首先他们录制了大约500小时的视频(机器人自己的摄像头录的),这些视频是多个操作者用多个机器人完成各种任务的过程。比如,有人用遥控方式操控一个人形机器人去拿水瓶、开门、搬盒子等等。
然后用一种自动打标签的 VLM(helix用的哪种?) 给视频加上“事后语言说明”。生成一种“语言-视频键值对”用来训练机器人理解“语言 → 行动”的能力。也就是说,模型看了视频之后,会反过来写一句话描述这个动作目标是什么。如果视频里机器人把杯子从桌子上拿起来放到架子上,VLM就会自动生成一句指令,比如:“把杯子放到架子上”。就像你看一个动作片段,然后倒着想:“我该怎么告诉机器人做这件事?”
在测试阶段不使用训练中出现过的物品。这样做是为了避免“泄题”,确保模型真的学会了通用能力,而不是记住了特定物体。
4.2 Helix系统架构
这个系统有两个主要系统:
-
S2:视觉-语言模型(VLM)的主干,就像人的大脑里理解语言和图像的区域。
-
S1:一个能根据信息做出动作的模型,专门负责控制机器人的动作。
4.2.1 S2
可以把 S2 想成“指挥官”,理解任务是什么;S1 是“士兵”,根据指令做出行动。
S2 是一个非常强大的模型,有 70亿个参数(参数越多,模型越复杂),它是开源的,并且是用互联网上的海量图文数据训练出来的(S2具体是哪个模型?)。
S2 处理的是:
-
机器人看到的单眼图像(就像闭上一只眼睛看东西)。
-
以及机器人的状态信息(手腕的姿势、手指的位置等)。
这些信息会被“转译”成一种叫视觉-语言嵌入空间的形式(这个过程是怎么处理的?),这是机器能同时理解图像和语言的方式。其实就是把图片和状态信息翻译成“通用语”,方便后续处理。它还会结合自然语言指令。然后它会把图像、状态和语言这些不同的信息压缩成一个“潜在向量”,也就是一个精华版的隐藏信息,代表了完成任务需要的一切重要信息。(图像-语言-状态)
S1 会接收这个“浓缩信息”,然后据此控制机器人做出低层次动作(比如弯手指、转手腕)。
4.2.2 S1
S1 模块在整个系统中扮演「执行者 (executor)」的角色,它通过一个轻量级但高频率的 Transformer 网络,将来自更慢的、语义丰富的 S2 系统的高层“意图”信息与视觉与状态输入,快速地转化为连续的机器人动作。
S1 是一个有 8000 万参数的跨注意力(cross-attention)编码器-解码器 Transformer,用来处理低层控制。S1 每秒约发出 200 次动作指令,能够在每 5 ms 内更新一次。
解释一下跨注意力(cross-attention)编码器-解码器 Transformer:
-
编码器 (Encoder):分别将视觉特征和S2 的潜向量编码为一系列内部表示 (tokens)。
-
跨注意力 (Cross‑Attention):在解码时,让模型「同时关注」视觉 token 和潜向量 token,就像人同时看图、听指令,并把二者的信息结合。
-
解码器 (Decoder):基于上述注意力机制,逐步「生成」每一时刻的动作指令。
S1依赖一个“全卷积、多尺度”的视觉主干网络来处理图像,这个网络是在模拟环境中预训练的。
解释一下全卷积、多尺度”的视觉主干:
-
全卷积 (Fully Convolutional):不含任何全连接层,只用卷积核提取空间信息,保留输入图像的空间结构。
-
多尺度 (Multi‑Scale):通过不同尺寸的卷积核和下采样/上采样,获得从大视野到微观细节的多层次特征。
生成缩略图和放大图,确保既不丢失整体布局,又不会忽略关键细节。
虽然 S1 和 S2 接收相同的图像和状态输入,但 S1 处理得更频繁,以实现更快速的闭环控制反应。S2 就像教练每秒给出一次战术建议,S1 就像是运动员每 0.1 秒调整自己的动作以避免摔倒或错过球。
S2 生成的“潜在向量”被投影到 S1 的“token 空间”,并与 S1 视觉模块提取的特征拼接在一起,从而为任务提供条件。就像你在打游戏时看到画面(视觉输入)+ 接收到队友喊“去抢球!”的指令(任务向量),你会把这两种信息结合起来决定下一步动作。
S1不仅能控制手腕的姿势,还能控制手指的 弯曲 和 张开,还可以决定机器人的身体(躯干)和头部朝哪个方向转。还额外加了一个“任务完成百分比”的输出值,模型可以预测当前任务完成了多少,通过这个“完成百分比”,Helix 可以 自己决定什么时候该结束这个动作或任务,这种设计可以更容易地 把多个动作串联起来执行,比如先“走过去”,再“捡起物体”,再“转身离开”。
4.3 训练
Helix是一个从原始图像和文本命令到动作的转换模型,采用的是端到端训练。这意味着,它直接学习从输入(比如图像和文本指令)到输出(如机器人动作)之间的映射,不需要人为指定中间的规则。
- 系统自动学习到“雨天地面反光”与“轮胎打滑风险”的关联,直接调整控制策略,而传统方法需手动编写“雨天降速”规则。训练时用回归(比如预测角度或位置的数值差异)来优化模型。
Helix使用回传梯度(backpropagation)技术来优化两个模块(S1和S2)。这意味着,模型的预测错误会从结果返回到模型中,指导它如何调整学习。模型通过一个潜在的通信向量(latent communication vector)将信息从S1反向传递到S2,使得两个模块可以共同学习,优化整体表现。
- S1 像是“眼睛+耳朵”,S2 是“手+脚”,如果手做错了动作,大脑可以告诉眼睛“你刚才看错了方向”,这样下次就更准。
Helix 不需要针对具体任务进行调整;它只使用一个训练阶段和一组神经网络权重,无需为不同任务训练不同模型,也不需要为每个任务单独调节网络结构。Helix 是通用的,不管是“走路”“捡球”“避障”这些任务,它都用同一个模型处理,不需要像以前的做法那样,为每个任务单独开小灶。
- 就像你一个人能用同一双手完成“写字”、“开门”、“做饭”,不需要为每件事换一双专门的“任务手”。
因为 S1 和 S2 在实际部署中处理速度不一样(比如视觉处理比动作控制慢),训练时就提前模拟这种“速度差”,让模型习惯这个延迟。所以在训练过程中,在人为设置的 S1 和 S2 的输入之间加入了时间偏移。这个偏移不是随便设的,是根据部署时的真实延迟来设定的。
- 像自动驾驶系统提前知道摄像头处理慢 0.2 秒,所以训练时就让它假装图像是“延迟的”,这样它开车时就不会撞到东西。
4.4 Optimized Streaming Inference(优化后的流式推理过程)
Helix 的训练设计支持高效的模型并行部署(将一个大模型分割成多个子模块,分别运行在不同的 GPU 上)在 Figure 机器人上,每台机器人都配备了两个低功耗的嵌入式 GPU(低功耗、体积小,适合机器人这种空间和能源受限的设备)。标题中的这个推理流程就被分成了S2和S1两个模型分别在各自GPU上运行。
- 想象你有个机器人助手,一个 GPU 专门处理“大脑思考”(计划动作),另一个 GPU 负责“肌肉控制”(执行动作),它们各司其职但协同工作。
S2 以异步后台进程(该进程与其他进程并行,不需要等待其他进程完成)运行,不需要实时运行,它按自己的节奏更新,接收最新的观察信息(来自摄像头和机器人状态)以及自然语言指令。它不断更新一个共享内存(S1也可以随时读取这个空间)中的“潜在向量”(在机器学习中用来表示信息的高维向量,含有“我接下来想做什么”的信息),该向量编码了高层次的行为意图。
S1 作为独立的实时进程运行,保持关键的 200Hz 控制循环,以实现流畅的上半身动作。它同时接受最新的观测数据和最新的 S2 潜在向量,使用他们在实时控制过程中生成控制命令。由于 S1 需要快速响应环境变化,它的反应速度更快,可以精准地调节机器人的动作。而 S2 则是以较慢的速度处理高层次的决策和规划任务。
这种部署策略故意模仿了训练中引入的时间偏移,从而最小化了模型在训练阶段与实际应用阶段(推理阶段)之间可能存在的差异。两个进程可以独立运行,各自按照自己的最佳时间频率进行计算,使我们能够像运行我们最快的单任务模仿学习策略(机器学习模型通过模仿专家的行为来执行单一任务的训练方法)一样快速地运行 Helix。
5. 成果
5.1 精细化的VLA整个上半身控制
Helix协调一个35自由度(DoF)的动作空间,频率为200Hz,控制从单个手指的运动到末端执行器的轨迹、头部视线以及躯干姿势的一切。头部和躯干控制位姿独特的挑战——随着它们的移动,既改变了机器人能触及的范围,也改变了它能看到的内容,形成了训练过程中曾导致不稳定的反馈回路。机器人在调整躯干以达到最佳触及范围的同时,平稳地用头部追踪自己的手,同时保持精确的手指控制来抓取物体。
在之前,要在这样一个高维度的动作空间中实现如此精度的控制,即使是单一任务,也被认为是极其具有挑战性的。据我们所知,之前没有任何VLA系统能够在保持任务和物体通用性的同时,展示出这种精度的实时协调。(突破性成果)
5.2 零样本学习多机器人协作
在一个具有挑战性的操作场景中:两个Figure机器人之间在没有事先接触过这些物品或任务的情况下,合作进行杂货存储。
https://videos.ctfassets.net/qx5k8y1u9drj/1Xb3IbRlWHGT0weCRRNtjf/e5de4605f6ed5467889519ab6ffafa64/COOKIE.mp4
上面这个视频展示了两项重要进展:
- 机器人成功操作了完全陌生的杂货——这些物品在训练过程中从未接触过——证明它们能够在各种形状、大小和材质的物品上表现出强大的泛化能力。
- 这两个机器人使用相同的Helix模型权重操作,消除了对特定机器人训练或明确角色分配的需求。像是两个人用相同的指导说明做事,没有“左手”和“右手”的差异。(两台之间是怎么“交流”的呢?)
它们通过自然语言提示实现协调,比如“把饼干袋递给你右边的机器人”或“从你左边的机器人那里接过饼干袋并把它放到打开的抽屉里”。(那是怎么进行沟通的呢?单纯通过对自然语言的理解吗?)比如告诉两个机器人:“把那瓶水递给对方”,他们怎么知道谁要递水,谁要接?
这是首次展示多个机器人使用VLA(视觉-语言-行动模型)进行灵活的、扩展的协作操作,尤其重要的是,它们成功处理了完全陌生的物品。
5.3 拾取万物
实验发现,配备Helix的Figure机器人可以通过简单的“拿起[X]”命令拾取几乎所有的小型家庭物品。在系统性的测试中,机器人成功地处理了数千种不同的新物品,它们从杂乱无章的环境中挑选出了各种物品,包括玻璃器皿、玩具、工具和衣物,且没有任何事先的示范或定制编程。
特别值得注意的是,Helix是如何弥合对互联网级别规模语言的理解和精确机器人控制之间的差异?例如,当被要求“拿起沙漠物品”时,Helix不仅能识别出玩具仙人掌与这一抽象概念相符,还能选择最接近的手臂,并执行精确的动作命令,确保安全地抓取它。
这种通用的“语言到动作”抓取能力为类人机器人在没有预先设定、可能杂乱无章的环境中的应用开辟了令人兴奋的新可能(家务,办公室,灾后救援?)。
6. 讨论
6.1 Helix的高效训练
Helix 用非常少的资源,就能很好地泛化到不同的物体上。用大约 500 小时的高质量有监督数据来训练 Helix,只占以往同类 VLA 数据集的一小部分(不到 5%)(有这么夸张?)。以前的VLA 模型动辄几万小时的数据,这只是个“零头”。而且不需要依赖多个机器人收集数据,也不需要多阶段的训练流程。
- 有些模型为了训练得更好,会让多个不同的机器人去采集数据,这样能让模型适应不同身体结构,但这很复杂,也很贵。Helix 不用这么做,它就能学得很好,流程更简单。也不需要先学基础再逐步提高
值得一提的是,这种数据量更像是现代的单任务模仿学习数据集的规模(通常也只需要几百小时的数据)。虽然是同一个数量级的数据量,但是Helix干的可不止一个任务。而且这么少的数据量能完成整个人形上半身的控制,而且自由度很高,输出频率也很高。
6.2 一组统一的权重参数
现有的 VLA 系统(VLA 不是单指一个具体的“大模型”,而是一种将视觉(Vision)、语言(Language)和动作(Action)能力融合到一起的“通用”机器人控制范式。),通常需要为不同的高阶行为做专门的微调,或设计专门的动作模块(action heads)来优化性能。令人惊讶的是,Helix 用一个统一的模型就能在各种任务中表现出色。
虽然看起来是两个子模型,但 Helix 在训练和部署时是一体化地进行联合优化,仅用一套神经网络权重(System 2 有 70 亿参数,System 1 有 8000 万参数),就可以完成:将物品放入各种容器、操作抽屉和冰箱、配合多个机器人之间灵巧地交接物品,并操控上千种从未见过的新物体。
现在只能做拿放动作(干什么都得拿放,最基础吧),将来可能能自己洗碗、整理床铺,甚至更多。我迫不及待想看看将 Helix 扩大一千倍乃至更多时会发生什么
问题思考
1. 可行性与适合性
家庭提出了机器人技术的最大挑战,与受控的工业环境不同,一个家庭的房间中充满了无数的物体,每个物体都有不可预测的形状、大小、颜色和纹理,杂乱无章。
- 比如台面种植草莓,非常有序的一种环境,无序纷乱的可能只有长成的草莓和茎叶缠绕,但总体还算受控?此外,草莓的生长状态和光照条件也会影响识别效果。
为了使机器人在家务工作中靠近人类的效率,它们需要能够按需生成新行为,特别是对于他们从未见过的物体。
- 草莓采摘中,一株草莓上大小形状颜色各有差异,能否泛化出它没学过的草莓的样子?
它的多机器人协作完成任务也值得挖掘,一个机器人把东西交给另一个
- 草莓采摘中,也可以借鉴这种多机器人协作,无非是多机械臂协作,一个摘一个分类,或者一个摘,一个拨开障碍物等形式。
- 不过我们也可以不协作,各摘各的,但是这样可能会互相碰撞。
通用机器人需要在复杂环境中快速响应,但当前的通用模型(如谷歌的RT-2模型)在控制周期上仅能达到3Hz,远低于人形机器人所需的500Hz,这导致其难以满足实时性需求。AI的通用性与性能之间存在显著矛盾。通用性越强的AI性能越差,应用场景有限;而性能越强的AI则更专业化,但成本高昂且难以普及。
- VLA(视觉语言动作模型)需处理多模态输入,但推理频率仅3Hz,远低于工业需求
- 其实草莓采摘的一整个过程也算长视距任务,识别成熟草莓--计算路径--抓取--放置。
Helix是首个 完全在嵌入式低功耗 GPU 上运行的 VLA
- 草莓采摘机器人也需要这样的商业价值,谁会嫌成本低呢?
2. 具体细节
硬件层面上:
需要精确的机械操作,以避免损伤果实,这个Helix倒是没提到用力情况,但是精度肯定没问题,光滑玻璃杯都可以,但是力量就不好说了。怎么动态调节夹持力度?它从人类操作的视角进行学习,从这个视频里能学出多大夹持力?视频对应的自然语言描述里是否有“轻轻的拿放”等指定形容词的内容?
figure机器人上为了搭载Helix系统,各自装了两个GPU,分别执行不同的模型,我们那机械臂上能这么装?嵌入式低功耗GPU多大,怎么装?
而且它的这种是人手型的机械手,如果是柔性,或者其他的什么的末端执行器呢?会有影响吗?
训练上:
Helix的数据来源是机器人自己摄像头录得,专家操作机器人进行工作的500小时视频,然后这些视频经过打标,形成一组视频-语言键值对,在草莓采摘中,首先是这个视频,我们能控制机器人操作录500小时吗?那视频的分辨率(就是摄像头的吧),多高质量的视频可以满足这种需求?低一点对效果的影响大不大?
还有就是光照的影响,不同光照下的视频训练效果也许不同,那他如果在不同光照下学习,会不会产生一些意料之外的错误?
VLM 根据视频生成的指令是:摘下这串草莓?那太泛泛了吧,如果要有一个顺序的话,可以用师兄的进行训练?
他能否通过这种端到端的学习,类似模仿专家一样,学会如何在草莓可能被叶片、茎秆等遮挡的复杂情况下,生成一种潜在信息,包含采摘先后路径,如何控制机械臂的信息,这样就不用单独设计一个算法来计算先后顺序了(或只用于预训练过程)。
Helix在测试阶段不使用训练中出现过的物品,我们就摘草莓,在训练中该怎么实验这种泛化能力呢?还是说每一株草莓长得都不一样,自行实现了泛化测试,每株草莓长势不同,结果的位置、茎叶缠绕、叶片遮挡、甚至光照都不同,这也算一种对零样本泛化的需求?
S2说是开源的,可以找一下,看看效果。S2 处理的是:机器人看到的单眼图像、机器人的状态信息(手腕的姿势、手指的位置等)。
- 图像好说,我们机器人的机械臂的状态信息需要实时统计和传输
S1也需要视觉信息,以及S2的意图信息,通过跨注意力transfomer,将信息编码解码成动作指令。S1依赖一个“全卷积、多尺度”的视觉主干网络来处理图像,这个网络是在模拟环境中预训练的,这个网络也得看一下VLA论文中的。
Helix额外加了一个“任务完成百分比”的输出值,模型可以预测当前任务完成了多少,通过这个“完成百分比”,Helix 可以 自己决定什么时候该结束这个动作或任务,这种设计可以更容易地 把多个动作串联起来执行,比如先“走过去”,再“捡起物体”,再“转身离开”。
- 我们的机器人是否也要加上这么一个判断值?不过这是后续优化做的事了。摘1号草莓完成了百分之多少...
Helix只使用一个训练阶段和一组神经网络权重,我们在那么复杂的情况下,这么一组,能有什么样的效果还有待考证。这么一个黑盒,就能摘下,移动到某位置,放置,再继续,中间还要避障,那还要路径规划什么事儿?这Helix还真没提路径规划,还是说VLA就不需要路径规划了?有待研究一下VLA具体的工作原理和效果。
3. 局限性
端到端的局限性
-
可解释性差:难以诊断错误来源(是视觉感知不准还是策略生成错误?)。
-
数据饥渴:需大量覆盖长尾场景的数据(如机器人遇到罕见物体)。
-
物理一致性风险:模型可能学到“捷径”而非真实物理规律(如生成违背动力学的动作)