当前位置: 首页 > news >正文

【AI论文】D2E:基于桌面数据扩展视觉-动作预训练规模,以迁移至具身人工智能领域

摘要:大型语言模型利用了互联网规模的文本数据,然而具身人工智能仍受限于物理轨迹收集的高昂成本。桌面环境(尤其是游戏)提供了一种极具吸引力的替代方案:它们能在保持具身学习所必需的结构化观察-动作耦合关系的同时,提供大规模丰富的感觉运动交互。我们提出了D2E(Desktop to Embodied AI,即从桌面到具身人工智能)框架,该框架表明桌面交互可作为机器人具身人工智能任务的有效预训练基础。与以往局限于特定领域(如《我的世界》中的VPT)或数据为专有性质(如SIMA)的研究不同,D2E建立了一个从可扩展的桌面数据收集到在具身领域验证迁移的完整流程。我们的框架包含三个组件:(1)OWA工具包,它以152倍的压缩率将多样化的桌面交互统一为标准化格式;(2)通用型IDM(Generalist-IDM),通过基于时间戳的事件预测,在未见过的游戏中实现强大的零样本泛化能力,从而实现互联网规模的伪标签标注;(3)VAPT,将桌面预训练的表征迁移到物理操作和导航任务中。利用1300多个小时的数据(259小时的人类演示数据和1000多个小时的伪标签标注游戏数据),我们在LIBERO操作基准测试中实现了96.6%的成功率,在CANVAS导航基准测试中实现了83.3%的成功率。这验证了数字交互中的感觉运动基元具有足够的不变性,能够有意义地迁移到物理具身任务中,从而确立了桌面预训练作为机器人技术的一种实用范式。我们将公开所有研究成果,包括OWA工具包、人工收集和伪标签标注的数据集,以及在Github上提供的经VAPT训练的模型。Huggingface链接:Paper page,论文链接:2510.05684

研究背景和目的

研究背景
近年来,大型语言模型(LLMs)通过利用互联网规模的文本数据取得了显著进展,展示了强大的泛化能力。

然而,具身人工智能(Embodied AI)领域的发展却受到物理轨迹数据收集成本高昂的限制。与文本数据不同,具身轨迹的收集需要专门的硬件、昂贵的人工操作以及复杂的标注流程,导致现有数据集规模较小、领域特定且格式不兼容,阻碍了具身AI的“数据飞轮”效应。桌面环境,特别是游戏环境,提供了丰富的传感器运动交互数据,同时保持了具身学习所需的结构化观察-动作耦合,成为具身AI预训练的一个有前景的替代方案。

研究目的
本研究旨在探索将桌面交互作为机器人具身AI任务的有效预训练基质。

通过提出D2E(Desktop to Embodied AI)框架,研究团队希望证明桌面预训练表示能够直接迁移到物理具身任务中,从而降低对昂贵物理数据收集的依赖。具体目标包括:1)开发一个统一的桌面数据收集工具包;2)训练一个能够跨未见游戏进行泛化的通用逆动力学模型(Generalist-IDM);3)验证桌面预训练表示在机器人操作和导航任务中的迁移能力。

研究方法

1. 数据收集工具包(OWA Toolkit)
研究团队开发了OWA Toolkit,包括一个同步多模态记录器(ocap)和标准化的数据格式(OWAMcap)。

ocap记录器利用Windows API和GStreamer同步捕获屏幕、键盘和鼠标的多模态数据流,而OWAMcap格式通过分层架构实现了高压缩比(最高达152倍),同时保持了事件保真度和高效的随机访问能力。通过该工具包,研究团队收集了335小时的人类演示数据,涵盖31款不同的游戏和应用程序。

2. 通用逆动力学模型(Generalist-IDM)
为了扩展手动标注数据的局限性,研究团队提出了基于时间戳的下一事件预测(NEP-τ)的通用逆动力学模型。

该模型通过预测未来观察来推断当前动作,实现了跨未见游戏的零样本泛化能力。通过利用OWA Toolkit收集的数据进行训练,并结合YouTube游戏视频的伪标注,模型能够在没有额外人工标注的情况下,对超过1000小时的游戏视频进行自动标注。

3. 视觉动作预训练(VAPT)
研究团队使用收集的人类演示数据和伪标注数据训练了VAPT模型,该模型通过预训练视觉-动作表示,实现了从桌面交互到机器人具身任务的迁移。

具体来说,VAPT模型在LIBERO操作基准和CANVAS导航基准上进行了验证,展示了桌面预训练表示在物理任务中的有效性。

研究结果

1. 数据收集与压缩
OWA Toolkit成功捕获了335小时的人类演示数据,并通过OWAMcap格式实现了高达152倍的存储压缩比。例如,VPT数据集从1.06TiB压缩至7.12GiB,CS:GO数据集从689GiB压缩至20GiB,显著降低了大规模桌面数据集的存储成本。

2. 通用逆动力学模型的性能
Generalist-IDM在多个未见游戏上展示了强大的零样本泛化能力。

在2D和3D游戏的评估中,该模型显著优于游戏特定的Specialist-IDMs,特别是在键盘准确性和鼠标移动的相关性上表现突出。例如,在《星露谷物语》中,Pearson相关系数提高了39.5个百分点,键盘准确率提高了57.6个百分点。

3. 视觉动作预训练的迁移效果
VAPT模型在LIBERO操作基准上实现了96.6%的总成功率,在CANVAS导航基准上实现了83.3%的总成功率。

这些结果表明,桌面预训练表示能够显著提升机器人在物理任务中的性能,特别是在需要精细操作和长期规划的任务中。例如,在LIBERO的长视距任务中,VAPT模型展现了显著的优势,证明了桌面预训练对于复杂任务的重要性。

研究局限

1. 评估范围的限制
本研究主要在模拟基准上进行了评估,尚未在真实机器人上进行验证。虽然模拟基准提供了可重复的基础,但真实世界环境中的复杂性和不确定性可能对模型性能提出更高要求。

2. 伪标注数据的局限性
尽管伪标注数据显著扩展了训练集规模,但其对操作任务的改进效果有限。

这可能是因为操作任务需要更精确的人类监督,而伪标注数据在精细动作序列的准确性上可能存在不足。

3. 数据集的多样性
当前数据集主要聚焦于游戏交互,可能无法全面覆盖与通用机器人任务相关的所有桌面活动。尽管游戏环境提供了丰富的传感器运动模式,但真实世界中的桌面任务可能涉及更多样化的交互类型和上下文。

未来研究方向

1. 真实机器人验证
未来的研究应在真实机器人上验证D2E框架的有效性,特别是在复杂和动态的环境中。

通过真实世界的操作和导航任务,可以进一步评估桌面预训练表示在实际应用中的泛化能力和鲁棒性。

2. 改进伪标注技术
为了提高伪标注数据的质量,未来的研究可以探索更先进的标注策略,如结合半监督学习或主动学习的方法,以在有限的人工标注资源下最大化伪标注数据的效用。

3. 扩展数据集多样性
为了增强模型的通用性,未来的数据集应包含更多样化的桌面活动,如办公软件操作、网页浏览和多媒体编辑等。

通过覆盖更广泛的交互类型和上下文,可以进一步提升桌面预训练表示在通用机器人任务中的适用性。

4. 跨模态学习与融合
未来的研究可以探索如何更好地融合多模态信息(如视觉、语言和动作),以提升模型在复杂任务中的理解和决策能力。

通过跨模态学习,模型可以更好地理解人类意图和环境上下文,从而实现更自然和高效的人机交互。

5. 可持续性与伦理考虑
随着具身AI技术的不断发展,未来的研究应更加关注其可持续性和伦理影响。

通过开发低能耗的训练方法和负责任的数据使用策略,可以确保具身AI技术的健康发展,并为社会带来积极影响。

http://www.dtcms.com/a/511660.html

相关文章:

  • 机器学习和深度学习模型训练流程
  • C++ STL——allocator
  • 开题报告--中美外贸企业电子商务模式的比较分析
  • 基于原子操作的 C++ 高并发跳表实现
  • java 8 lambda表达式对list进行分组
  • 网站建设 有聊天工具的吗网站开发者的设计构想
  • 建网站 北京网站接入支付宝在线交易怎么做
  • scrapy爬取豆瓣电影
  • bisheng 的 MCP服务器添加 或 系统集成
  • 一个完整的 TCP 服务器监听示例(C#)
  • 执行操作后元素的最高频率1 2(LeetCode 3346 3347)
  • Java 大视界 -- Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践
  • 版本设计网站100个关键词
  • 网站前置审批工程建设服务平台
  • 共聚焦显微镜(LSCM)的针孔效应
  • STM32CubeMX
  • 网站实现搜索功能四川建设安全协会网站
  • spark组件-spark core(批处理)-rdd特性-内存计算
  • 算法练习:双指针专题
  • 关于comfyui的triton安装(xformers的需求)
  • 爬虫+Redis:如何实现分布式去重与任务队列?
  • 烘焙食品网站建设需求分析wordpress生成静态地图
  • 区块链——Solidity编程
  • OpenSSH安全升级全指南:从编译安装到中文显示异常完美解决
  • 数据结构的演化:从线性存储到语义关联的未来
  • 爱博精电AcuSys 电力监控系统赋能山东有研艾斯,铸就12英寸大硅片智能配电新标杆
  • 基于AI与云计算的PDF操作工具开发技术探索
  • LeetCode 404:左叶子之和(Sum of Left Leaves)
  • 中小企业网站建设论文高端制作网站技术
  • 电子报 网站开发平面设计培训机构排行