当前位置: 首页 > news >正文

面向机器人推动与抓取任务自适应算法研究

本文提出的方法是基于深度强化学习(DRL)的物体推动方法,核心就是在“奖励函数”里加入“接触力信息”,让机器人高效把东西从初始位置推动到目标位置

接触力信息作用:它能反应机器人和物体之间是怎么交互的,能判断推动动作好不好,利用它设计奖励函数,就能引导机器人学咋推动,比如奖励函数鼓励机器人产生朝着目标方向的接触力(还得控制着物体别乱转,走直线等)

用深度神经网络训练机器人推动策略,结合SAC算法(Soft-Actor-Critic,软演员,评论家算法),SAC算法与传统的强化学习算法区别在于,Soft意思是别光盯着“当前最优”,也给探索留点空间,它引入了“熵”的概念(“不确定性、探索欲”)鼓励策略网络多试试新动作,别总走老路,而传统的有点就是“死磕最优”

整体的运行:

互动收集数据:机器人用当前策略和环境互动,做动作拿奖励,记录状态变化

评论家评估:根据收集的数据,评估每一个状态-动作组合的价值,给演员反馈

演员调整策略:结合评论家的反馈,还有熵带来的探索需求,调整好自己的动作策略,争取下次做的更好,同时保存一定的探索性

循环优化:不断重复以上步骤,慢慢的让演员的策略越来越厉害

通过一个接触模型(看物体质心、接触力方向啥的)获得接触信息,设计奖励函数

碰到物体时:奖励和“接触力方向与物体质心到目标点连线的角度”、“物体质心到接触力方向的距离”有关,角度越小,距离越短,奖励函数设计上就越鼓励,这样能够让推力尽量通过质心,别打转

没碰到物体时:奖励设计鼓励机器人赶紧碰到物体,别瞎转悠

http://www.dtcms.com/a/350392.html

相关文章:

  • langchain的简单应用案例---(2)使用Memory实现一个带记忆的对话机器人
  • 工作记录 2015-10-29
  • 销售额和营业收入的区别在哪?哪个值应该更大一些?
  • 新项目,如何做成本估算?
  • 本地缓存与 Redis 缓存的区别与实际应用
  • 【OpenAI】ChatGPT-4o-latest 真正的多模态、长文本模型的详细介绍+API的使用教程!
  • 2025软件测试面试题(持续更新)
  • 07-JUnit测试
  • ubuntu 卡到登录页面进不去--实测
  • 陪护系统有哪些功能?
  • 高并发内存池(4)-TLS:Thread Local Storage
  • Vue.nextTick讲解
  • kubectl 客户端访问 Kubernetes API Server 不通的原因排查与解决办法
  • 800G时代!全场景光模块矩阵解锁数据中心超高速未来
  • AR眼镜赋能矿业冶金数字化转型
  • Wireshark笔记-DHCP流程与数据包解析
  • Linux驱动开发笔记(七)——并发与竞争(上)——原子操作
  • SQLite 全面指南与常用操作
  • 没有AI背景的团队如何快速进行AI开发
  • expdp导出dmp到本地
  • docker 安装配置 redis
  • PDF处理控件Spire.PDF系列教程:在 C# 中实现 PDF 与字节数组的互转
  • 2025年06月 Python(二级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • synchronized关键字的底层原理
  • 蘑兔音乐:创作好搭子
  • 嵌入式C语言进阶:深入理解sizeof操作符的精妙用法
  • 隧道监测实训模型
  • 讲解 JavaScript 中的深拷贝和浅拷贝
  • PyPI 是什么?
  • CCleaner中文版:强大的系统优化与隐私保护工具,支持清理磁盘、注册表和卸载软件