当前位置: 首页 > news >正文

AAAI 2025丨具身智能+多模态感知如何精准锁定目标

关注gongzhonghao【计算机sci论文精选】!

具身智能指通过物理载体与环境实时交互的智能系统,具备感知、决策与执行一体化能力,实现“大脑思考+身体行动”的协同。

2025年首次被写入中国《政府工作报告》作为未来产业,全球人形机器人新品年超百款。中国在“天工”机器人奔跑控制、“慧思开物”通用平台等领域领先,技术加速从实验室迈向工业制造、家庭服务等场景。今天小图给大家精选3篇AAAI有关具身智能方向的论文,请注意查收!

论文一:DigitalLLaVA: Incorporating Digital Cognition Capability for Physical World Comprehension in Multimodal LLMs

方法:

文章首先通过数字载体映射方法,利用对象级文本-图像对来增强模型对物理数字载体的理解;其次,采用32位浮点数模拟方法,将数字预测转化为整体的0/1二进制分类问题,显著减少了搜索空间,使预测过程更加稳健和直接;最后,通过大量实验验证了该方法在多个领域的有效性和适用性。

图片

创新点:

  • 首次识别并分析了当前多模态大语言模型在物理数字认知方面的局限性,为后续改进提供了明确的方向。

  • 提出了DigitalLLaVA方法,通过数字载体映射和32位浮点数模拟两个步骤,明确地将数字认知能力注入多模态大语言模型。

  • 在多个数据集上进行了广泛的实验,证明了该方法能够显著提高模型对物理数字的识别精度,达到±0.001的准确度。

图片

论文链接:

https://ojs.aaai.org/index.php/AAAI/article/view/32522

图灵学术论文辅导

论文二:EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs

方法:

文章首先构建了EMHI数据集,通过真实VR设备采集了包含立体图像和全身IMU信号的数据,并利用多视角相机系统和OptiTrack进行时空同步和姿态注释。接着,提出了MEPoser方法,其多模态融合编码器分别对图像和IMU数据进行特征提取并融合,时间特征编码器利用LSTM模块捕捉时间信息,最后通过MLP回归头估计SMPL模型的姿态和形状参数。实验表明,该方法在多模态数据融合方面具有显著优势,有效提升了人体姿态估计的准确性和鲁棒性。

图片

创新点:

  • 首次构建了一个大规模真实VR设备上的多模态第一人称人体运动数据集EMHI,填补了该领域的空白。

  • 提出了一种新的基线方法MEPoser,实现了在独立VR头显上实时人体姿态估计,显著提升了姿态估计的准确性和鲁棒性。

  • 通过广泛的实验验证了EMHI数据集和MEPoser方法的有效性,为未来的研究和实际应用提供了重要的参考。

图片

论文链接:

https://ojs.aaai.org/index.php/AAAI/article/view/32294

图灵学术论文辅导

论文三:FLAME: Learning to Navigate with Multimodal LLM in Urban Environments

方法:

文章首先基于Flamingo架构构建FLAME,通过改进的跨注意力机制高效处理多模态输入。接着,通过三阶段微调技术逐步提升模型的导航能力:第一阶段进行单感知微调,学习街景描述;第二阶段进行多感知微调,学习路线总结;第三阶段在VLN数据集上进行端到端训练。最后,利用GPT-4自动生成合成数据,为模型训练提供丰富的标注信息,显著提升了模型的性能。

图片

创新点:

  • FLAME是首个专门针对城市VLN任务设计的基于MLLM的智能体,有效解决了现有LLM在导航任务中的局限性。

  • 提出了一种三阶段微调技术,通过街景描述、路线总结和端到端导航训练,逐步提升模型的导航能力。

  • 利用GPT-4自动生成街景描述、路线总结和导航理由,为模型训练提供了丰富的合成数据,进一步增强了模型的推理能力。

图片

论文链接:

https://arxiv.org/abs/2408.11051

本文选自gongzhonghao【计算机sci论文精选

http://www.dtcms.com/a/324548.html

相关文章:

  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘ray’问题
  • Python数据分析常规步骤整理
  • Mysql系列--5、表的基本查询(下)
  • Speaking T2 - Dining Hall to CloseDuring Spring Break
  • 机器学习 DBScan
  • 一键复制产品信息到剪贴板
  • 【接口自动化】初识pytest,一文讲解pytest的安装,识别规则以及配置文件的使用
  • 网闸技术解析:如何实现对国产数据库(达梦/金仓)的深度支持
  • AI 代理框架:使用正确的工具构建更智能的系统
  • 网络小工具发布 IPPw
  • 机器学习之K-means(K-均值)算法
  • 七、CV_模型微调
  • SpringBoot学习日记(三)
  • P1152 欢乐的跳
  • 从零开始实现Qwen3(MOE架构)
  • C语言基础05——指针
  • Pinia 状态管理库
  • Redis - 使用 Redis HyperLogLog 进行高效基数统计
  • 无人机集群协同三维路径规划,采用梦境优化算法(DOA)实现,Matlab代码
  • strace的常用案例
  • 基于Qt/QML 5.14和YOLOv8的工业异常检测Demo:冲压点智能识别
  • VSCODE+GDB+QEMU调试内核
  • 为 Prometheus 告警规则增加 UI 管理能力
  • 力扣经典算法篇-47-Pow(x, n)(快速幂思路)
  • 每日算法刷题Day60:8.10:leetcode 队列5道题,用时2h
  • Java Stream流详解:从基础语法到实战应用
  • 安装1panel之后如何通过nginx代理访问
  • Linux系统编程Day11 -- 进程属性和常见进程
  • 智慧社区(十一)——Spring Boot 实现 Excel 导出、上传与数据导入全流程详解
  • Langchain调用MCP服务和工具