【AI论文】WorldVLA:迈向自回归动作世界模型
摘要:我们提出了WorldVLA这一自回归动作世界模型,该模型统一了动作理解与生成以及图像理解与生成。我们的WorldVLA将视觉-语言-动作(VLA)模型与世界模型整合在一个统一的框架中。世界模型通过利用动作理解和图像理解来预测未来图像,旨在学习环境的底层物理规律,以改进动作生成。与此同时,动作模型基于图像观测生成后续动作,有助于视觉理解,进而促进世界模型的视觉生成。我们证明了WorldVLA优于独立的动作模型和世界模型,凸显了世界模型与动作模型之间的相互增强作用。此外,我们发现,当以自回归方式生成一系列动作时,动作模型的性能会下降。这一现象可归因于模型在动作预测方面的泛化能力有限,导致早期动作的错误传播至后续动作。为解决这一问题,我们提出了一种注意力掩码策略,该策略在当前动作生成过程中有选择地掩蔽先前的动作,在动作块生成任务中显著提升了性能。Huggingface链接:Paper page,论文链接:2506.21539
研究背景和目的
研究背景:
随着机器人技术和自动驾驶领域的快速发展,对机器人与环境交互能力的需求日益增加。传统的机器人行动模型和视频预测模型在处理复杂环境和动态物体时面临诸多挑战。特别是,现有的视觉-语言-动作(Vision-Language-Action, VLA)模型虽然结合了大规模预训练的多模态大语言模型(MLLMs)和动作生成模块,但在处理动作理解和生成方面仍显不足。动作往往被视为输出而非输入,导致模型对动作的深层理解有限。与此同时,世界模型(World Model)通过预测未来视觉状态来展示对环境和行为动态的理解,但其无法直接生成动作输出,限制了其在需要明确动作规划的场景中的应用。
研究目的:
本研究旨在提出一种名为WorldVLA的自回归动作世界模型,该模型将VLA模型和世界模型集成在一个统一的框架中,以实现动作和图像的统一理解与生成。具体研究目的包括:
- 统一动作和图像理解与生成:通过WorldVLA模型,同时实现动作生成和未来图像预测,提高机器人对环境和行为的综合理解能力。
- 增强动作模型的泛化能力:通过引入世界模型的物理环境理解,提升动作模型在未见场景中的泛化能力。
- 解决自回归动作生成中的错误传播问题:提出一种注意力掩码策略,减少在自回归生成多步动作时的错误累积,提高动作生成的准确性和稳定性。
- 验证模型性能:通过在LIBERO基准测试上的实验,验证WorldVLA模型在动作生成和视频预测任务上的优越性。
研究方法
1. 模型架构设计:
WorldVLA模型采用三个独立的标记器(tokenizer)分别对图像、文本和动作进行编码,并将不同模态的标记共享同一词汇表,以实现跨模态的统一理解和生成。模型主要包括两个部分:
- 动作模型(Action Model):基于图像观测和语言指令生成后续动作。
- 世界模型(World Model):基于当前图像和动作预测未来图像,以学习环境的底层物理规律。
2. 注意力掩码策略:
针对自回归动作生成中的错误传播问题,提出了一种注意力掩码策略。该策略在当前动作生成过程中,选择性地掩蔽先前的动作标记,使当前动作的生成仅依赖于文本和视觉输入,从而减少错误累积。
3. 训练策略:
采用混合训练数据的方式,将动作模型数据和世界模型数据结合在一起训练WorldVLA模型。动作模型数据用于生成动作,世界模型数据用于预测未来图像。通过联合训练,动作模型和世界模型相互促进,提高整体性能。
4. 实验设置:
在LIBERO基准测试上进行实验,该基准包含多个子任务,如空间关系、物体识别、目标达成和长序列任务。实验中使用了多种评估指标,包括成功率(SR)、Fréchet视频距离(FVD)、峰值信噪比(PSNR)、结构相似性指数(SSIM)和LPIPS距离。
研究结果
1. 动作生成性能:
- WorldVLA模型在LIBERO基准测试上的动作生成任务中表现出色,相比基线模型(如OpenVLA)有显著提升。具体来说,WorldVLA模型在各项子任务中的平均成功率提高了4%至23%。
- 注意力掩码策略有效缓解了自回归动作生成中的错误传播问题,显著提高了动作块生成的成功率。
2. 视频预测性能:
- WorldVLA模型在视频预测任务中也表现出色,相比纯世界模型,其生成的视频在FVD、PSNR、SSIM和LPIPS等指标上均有显著提升。特别是,WorldVLA模型在生成长序列视频时,能够保持较高的视觉质量和一致性。
3. 模型互惠增强:
- 实验结果表明,动作模型和世界模型在WorldVLA框架中相互增强。世界模型通过学习环境的物理规律,为动作模型提供了更准确的环境状态预测,从而提高了动作生成的准确性。同时,动作模型通过生成更合理的动作,为世界模型提供了更有意义的输入,促进了世界模型的视觉生成能力。
4. 注意力掩码策略的有效性:
- 注意力掩码策略在动作块生成任务中表现出色,有效减少了错误累积。实验结果显示,使用注意力掩码策略后,动作块生成的成功率显著提高,特别是在生成长序列动作时,性能提升更为明显。
研究局限
1. 数据依赖性:
- WorldVLA模型的性能高度依赖于训练数据的质量和多样性。如果训练数据不足或存在偏差,模型的泛化能力可能会受到影响。
2. 计算复杂度:
- 由于WorldVLA模型采用自回归架构,并在生成动作时需要考虑历史信息,因此其计算复杂度较高。在处理长序列任务时,模型的推理速度可能会成为瓶颈。
3. 动作标记的离散化:
- 当前研究中,动作被离散化为多个标记进行生成。这种离散化方式可能会丢失一些动作的连续性和细微差别,从而影响动作生成的精确性。
4. 光照和视角变化的适应性:
- 尽管WorldVLA模型在视频预测任务中表现出色,但在处理光照和视角剧烈变化的场景时,其性能可能会受到影响。这需要进一步改进模型的光照估计和视角变换能力。
未来研究方向
1. 扩大数据集规模:
- 收集更多样化和大规模的训练数据,以提高WorldVLA模型的泛化能力和鲁棒性。特别是,可以引入更多复杂环境和动态物体的数据,以增强模型对复杂场景的处理能力。
2. 优化模型架构:
- 探索更高效的模型架构,以降低计算复杂度并提高推理速度。例如,可以采用轻量级网络结构或模型压缩技术,减少模型的参数量和计算量。
3. 改进动作生成方式:
- 研究更连续和精细的动作生成方式,以减少动作离散化带来的信息损失。例如,可以采用连续动作空间或混合动作表示方法,提高动作生成的精确性和自然度。
4. 增强光照和视角变化的适应性:
- 改进模型的光照估计和视角变换能力,使其能够更好地适应光照和视角剧烈变化的场景。例如,可以引入更先进的光照估计算法或视角变换网络,提高模型在复杂环境中的视觉生成能力。
5. 多任务学习和迁移学习:
- 探索将WorldVLA模型应用于其他相关任务的可能性,如机器人导航、物体抓取等。通过多任务学习和迁移学习,可以进一步提高模型的通用性和实用性。
6. 实时性和嵌入式系统部署:
- 研究如何在资源受限的嵌入式系统上部署WorldVLA模型,以满足实时性要求。例如,可以采用模型量化、剪枝和蒸馏等技术,减少模型的计算量和内存占用,提高其在嵌入式系统上的运行效率。