当前位置：首页 > news >正文

RT-2论文深度解读：视觉-语言-动作统一模型的机器人泛化革命

news 2025/7/3 15:49:45

1. 核心问题与挑战

传统机器人学习存在两大瓶颈：

数据效率低下：依赖特定场景的机器人操作数据（如抓取、推压），收集成本高
泛化能力局限：模型仅能完成训练中出现过的任务，无法应对长尾场景

RT-2的创新目标：利用互联网规模的视觉语言预训练知识，实现机器人技能的零样本（zero-shot）迁移

2. 方法论突破

2.1 统一语义空间构建

数据范式革新：
- 将机器人动作表示为"语言化"Token序列（如 move_to(x=0.3,y=0.2)）
- 与视觉语言数据共同输入Transformer，建立跨模态联合嵌入空间

模型架构：

class RT2(nn.Module):
    def __init__(self):
        self.vision_encoder = ViT-22B           # 视觉编码器
        self.tokenizer = ActionTokenizer()      # 动作分词器
        self.transformer = Transformer-XL       # 跨模态融合
        
    def forward(self, image, text):
        img_tokens = self.vision_encoder(image) # [B, 256, 4096]
        txt_tokens = self.tokenizer(text)       # [B, 128]
        merged = concat([img_tokens, txt_tokens])
        action_tokens = self.transformer(merged)
        return self.tokenizer.decode(action_tokens)

2.2 两阶段训练策略

视觉语言预训练：
- 数据：来自网络的海量图文对（如LAION-5B）
- 目标：学习开放世界的语义关联（如"红色杯子"的视觉概念）

机器人指令微调：

数据：RT-1数据集（13万条机器人轨迹）
关键：将动作指令转化为可生成的文本序列

# 原始数据
{"joint_angles": [0.1, -0.3, ...], "gripper": 1}

# 转化为语言化指令
"move_to(0.12,0.45,0.1); grasp(); move_to(0.3,0.2,0.1); release()"

3. 实验设计与结果

3.1 零样本泛化能力

未见物体测试：

模型已知物体成功率新物体成功率
RT-1 (baseline) 92% 32%
RT-2 94% 71%
抽象指令理解：
指令：“把可乐递给饥饿的人” → 成功定位可乐瓶并递向人体姿态

模型	已知物体成功率	新物体成功率
RT-1 (baseline)	92%	32%
RT-2	94%	71%

3.2 少样本学习效率

仅需10条演示数据即达到RT-1千条数据的性能水平
训练周期缩短至传统方法的1/5

4. 关键技术剖析

4.1 动作语义化编码

空间离散化：将连续动作空间划分为256个语义区间
$a_{\text{discrete}} = \text{round}(\frac{a - a_{\min}}{a_{\max} - a_{\min}} \times 255)$
词汇表构建：创建包含512个动作Token的专用词典

4.2 思维链推理

模型内部生成中间推理步骤（可视化示例）：

输入图像 → [检测到红色方块在左侧] → 
指令："将方块移到蓝色盒子右侧" → 
推理链：[找到蓝色盒子→计算右侧坐标→规划路径]

4.3 安全约束嵌入

在生成阶段引入硬约束：

for token in generated_actions:
    if token == "move_to":
        target = parse_coordinates(next_token)
        if collision_check(target):   # 实时碰撞检测
            replace_with_safe_action()