当前位置：首页 > news >正文

面向机器人推动与抓取任务自适应算法研究

news 2025/8/26 10:09:21

本文提出的方法是基于深度强化学习（DRL）的物体推动方法，核心就是在“奖励函数”里加入“接触力信息”，让机器人高效把东西从初始位置推动到目标位置

接触力信息作用：它能反应机器人和物体之间是怎么交互的，能判断推动动作好不好，利用它设计奖励函数，就能引导机器人学咋推动，比如奖励函数鼓励机器人产生朝着目标方向的接触力（还得控制着物体别乱转，走直线等）

用深度神经网络训练机器人推动策略，结合SAC算法（Soft-Actor-Critic，软演员，评论家算法），SAC算法与传统的强化学习算法区别在于，Soft意思是别光盯着“当前最优”，也给探索留点空间，它引入了“熵”的概念（“不确定性、探索欲”）鼓励策略网络多试试新动作，别总走老路，而传统的有点就是“死磕最优”

整体的运行：

互动收集数据：机器人用当前策略和环境互动，做动作拿奖励，记录状态变化

评论家评估：根据收集的数据，评估每一个状态-动作组合的价值，给演员反馈

演员调整策略：结合评论家的反馈，还有熵带来的探索需求，调整好自己的动作策略，争取下次做的更好，同时保存一定的探索性

循环优化：不断重复以上步骤，慢慢的让演员的策略越来越厉害

通过一个接触模型（看物体质心、接触力方向啥的）获得接触信息，设计奖励函数

碰到物体时：奖励和“接触力方向与物体质心到目标点连线的角度”、“物体质心到接触力方向的距离”有关，角度越小，距离越短，奖励函数设计上就越鼓励，这样能够让推力尽量通过质心，别打转

没碰到物体时：奖励设计鼓励机器人赶紧碰到物体，别瞎转悠

http://www.dtcms.com/a/350392.html

相关文章：

langchain的简单应用案例---(2)使用Memory实现一个带记忆的对话机器人

工作记录 2015-10-29

销售额和营业收入的区别在哪？哪个值应该更大一些？

新项目，如何做成本估算？

本地缓存与 Redis 缓存的区别与实际应用

【OpenAI】ChatGPT-4o-latest 真正的多模态、长文本模型的详细介绍+API的使用教程！

2025软件测试面试题（持续更新）

07-JUnit测试

ubuntu 卡到登录页面进不去--实测

陪护系统有哪些功能？

高并发内存池（4）-TLS：Thread Local Storage

Vue.nextTick讲解

kubectl 客户端访问 Kubernetes API Server 不通的原因排查与解决办法

800G时代！全场景光模块矩阵解锁数据中心超高速未来

AR眼镜赋能矿业冶金数字化转型

Wireshark笔记-DHCP流程与数据包解析

Linux驱动开发笔记（七）——并发与竞争（上）——原子操作

SQLite 全面指南与常用操作

没有AI背景的团队如何快速进行AI开发

expdp导出dmp到本地

docker 安装配置 redis

PDF处理控件Spire.PDF系列教程：在 C# 中实现 PDF 与字节数组的互转

2025年06月 Python（二级）真题解析#中国电子学会#全国青少年软件编程等级考试

synchronized关键字的底层原理

蘑兔音乐：创作好搭子

嵌入式C语言进阶：深入理解sizeof操作符的精妙用法

隧道监测实训模型

讲解 JavaScript 中的深拷贝和浅拷贝

PyPI 是什么？

CCleaner中文版：强大的系统优化与隐私保护工具，支持清理磁盘、注册表和卸载软件