当前位置: 首页 > news >正文

聚焦于机器人研究,提出 FuSe 方法,通过语言锚定对通用机器人策略进行微调 视觉、触觉、听觉

聚焦于机器人研究,提出 FuSe 方法,通过语言锚定对通用机器人策略进行微调,利用多模态传感器提升性能,在多种任务中表现优异,具备跨模态推理能力。

 

  1. 研究背景:与世界交互需多感官协作,当前先进通用机器人策略多依赖视觉和本体感受数据训练,忽略其他模态信息。
  2. 方法:FuSe 利用自然语言作为跨模态锚定,结合多模态对比损失和基于感官的语言生成损失,对视觉运动通用策略在异构传感器模态上微调。多模态对比损失最大化不同模态和场景语义间互信息;多模态生成损失通过生成网络和辅助交叉熵损失,将观察嵌入与语言指令对比学习。
  3. 数据集:收集 26,866 条轨迹数据集,涵盖桌面抓取、购物袋抓取、按钮按压任务,涉及视觉、触觉、音频等多种传感器数据。
  4. 实验结果:FuSe 在所有任务环境中超越基线方法,在购物袋抓取任务提升显著。还具备简单和复杂跨模态推理能力,且适用于不同通用策略架构,如 PaliGemma - based 3B - parameter VLA 模型。
  5. 引用

相关文章:

  • ET框架实现匹配功能(服务器端)
  • TArray系列(二)
  • 【linux】文件与目录命令 - grep
  • UNIAPP开发之利用阿里RTC服务实现音视频通话后端THINKPHP5
  • 磐维数据库双中心容灾流复制集群搭建
  • K8S下redis哨兵集群使用secret隐藏configmap内明文密码方案详解
  • 我的文具盒作文范文
  • windows使用命令解压jar包,替换里面的文件。并重新打包成jar包,解决Failed to get nested archive for entry
  • 软件单元测试的技术要求
  • 日期类(完全讲解版)
  • 【Server Components 解析:Next.js 的未来组件模型】
  • Unity for Python —— 强大的 Python 脚本支持提升 Unity 编辑器效率
  • 前沿科技:改变生活的十大趋势
  • 后端开发:开启技术世界的新大门
  • playwright 实现自动上传,多元素操作
  • 性能:React 实战优化技巧 之 函数闭包
  • 一文讲解Redis为什么读写性能高以及I/O复用相关知识点
  • python读取pdf文档
  • 学习 `@PreDestroy`:Java EE/Jakarta EE 生命周期回调
  • web安全:跨站请求伪造 (CSRF)
  • 国务院安委会办公室印发通知:坚决防范遏制重特大事故发生
  • 两国战机均未侵入对方领空,巴方公布对印回击细节
  • 过半中国上市公司去年都在“扩编”,哪些公司人效最高
  • 巴基斯坦:印度向巴3处地点发射导弹
  • 鸿蒙概念股强势上涨,鸿蒙电脑本月正式发布,生态链即将补全
  • 默茨在德国联邦议院第一轮投票中未能当选总理