当前位置: 首页 > news >正文

北京通用人工智能研究院-通才智能体 LEO

北京通用人工智能研究院-通才智能体 LEO

为什么机器人需要理解空间关系?

近年来,多模态大语言模型(MLLMs)在视觉任务上取得了令人瞩目的进步。像GPT-4V、Claude和Gemini这样的模型可以理解图像内容并进行描述,仿佛它们真的"看懂"了图片。然而,这些模型面临一个重要的局限性——它们大多只能处理单一图像的空间理解,就像只能通过一张快照来理解世界,而无法整合多个视角或时间点的信息。

这种局限性严重阻碍了人工智能在机器人和自动驾驶等实际应用中的表现。试想,如果你让机器人"把餐桌上的盘子拿到厨房",它需要从多个角度理解餐桌和盘子的位置关系,然后规划一条路径,最后准确地抓取盘子。这不仅需要理解单帧图像中的空间关系,还需要整合多帧图像的信息,构建一个连贯的环境理解。

甲子光年:2025年具身智能行业发展现状分析,发展挑战与技术趋势-报告智库

如何让AI理解多帧图像中的空间关系?

首先是深度感知(Depth Perception)。想象你正在观察一个房间——有些物体离你很近,有些则很远。人类可以轻松判断物体的远近,这种能力对于理解三维空间至关重要。

其次是视觉对应(Visual Correspondence)。当你从不同角度观察同一个物体时,尽管它在图像中的位置和外观可能变化,但你的大脑会自动识别这是同一个物体。这种能力让研究团队的模型能够在不同图像之间匹配重叠区域,建立一致的场景关联。

动态感知(Dynamic Perception)。这包括理解相机(或观察者)的移动和物体的移动。当你在房间里走动时,你能感知自己的移动方向和速度,同时也能察觉哪些物体保持静止,哪些在移动。

通过整合深度感知、视觉对应和动态感知,Multi-SpatialMLLM展示了在复杂空间任务上的强大能力,为人工智能在现实世界中的应用开辟了新的可能性。

甲子光年:2025年具身智能行业发展现状分析,发展挑战与技术趋势-报告智库

具身多任务多模态的通才智能体 LEO

北京通用人工智能研究院联合北京大学、卡耐基梅隆大学和清华大学的研究人员提出了首个三维世界中的具身多任务多模态的通才智能体 LEO。

通才智能体 LEO 以大语言模型为基础,可以完成感知(perception)、定位(grounding)、推理(reasoning)、规划(planning)和动作执行(acting)等任务。

LEO 的三维视觉语言理解、具身推理和动作执行能力在现实世界中有广泛的应用场景与巨大的应用价值。作为未来的家庭助理,LEO 可以与人交互,回答与场景相关的问题,例如根据用户喜好调整家居布局、帮助用户找到特定物品、为用户的各种问题提供建议。LEO 的导航能力可用于购物中心、办公楼中的智能引导,其操控能力可用于家居自动化任务,如打扫、整理或简单厨房任务,以及仓库和物流中心的物品整理和搬运。

图片

利用 PointNet++ 提取出场景点云中物体级别的特征,随后用空间编码器(Spatial Transformer)对空间位置关系进行建模,从而得到三维场景级别(scene-level)的特征

二维图像则经过预训练模型 OpenCLIP ConvNext 处理得到第一视角的视觉特征。二维和三维的视觉特征最后分别经过 projector 映射到文本空间中。

LLM 方面,采用 Vicuna-7B 作为预训练语言模型来处理 token 序列,训练中,利用 LoRA 方法来微调 LLM

图片

相关文章:

  • 【Pandas】pandas DataFrame rename_axis
  • 记录被mybatis一级缓存坑的问题
  • electron-vite_18桌面共享
  • Web3如何重塑数据隐私的未来
  • LeetCode[404]左叶子之和
  • 机器学习——主成分分析(PCA)
  • Axure设计案例:滑动拼图解锁
  • 项目计划未与实际情况同步更新,如何保持计划的实时性?
  • UniRig:如何在矩池云一站式解决 3D 模型绑定难题
  • Linux随记(十八)
  • 【产品研究】安克创新公司产品研究
  • idea不识别lombok---实体类报没有getter方法
  • 实现脚本引擎技术详解
  • Ubuntu22.04安装MinkowskiEngine
  • 外贸建站平台推荐
  • 部分过孔双面开窗且孔径0.2mm导致的油墨入孔/堵孔现象
  • git checkout C1解释
  • 【优化】常见优化手段之图片渐进式加载方案
  • java复习 01
  • 蛋白质设计软件LigandMPNN介绍
  • 网站建设公司起名/广州seo优化外包公司
  • 日主题wordpress/seo关键词
  • 社区党建网站系统建设/东莞seo计费
  • 亚马逊网站推广怎么做/成都百度百科
  • 网站建设专家收费标准/360搜索引擎地址
  • 宁波建设教育培训网/seo关键词怎么选