当前位置: 首页 > news >正文

強化學習實例(模仿rift)

请添加图片描述请添加图片描述rl主要有两点改动
1.在数据层面,根据模型的训练结果对主车的位置进行移动,然后根据移动结果重新生成batch_data,然后对batch_data进行推理,得到相应的reward,目前reward主要还是relation
2.对模型进行推理,根据reward去计算loss

這裡只對prob進行了rl微调,整体思路就是说,如果ade、collision和真值差距大的话,prob的分布也要和闭环得到的数据差距大;如果ade、collision和真值差距小的话,prob的分布要和闭环的数据相似

分布相似用kl散度来表示:https://blog.csdn.net/Rocky6688/article/details/103470437

http://www.dtcms.com/a/550440.html

相关文章:

  • LLM-based Agent
  • 23种设计模式-框架中的使用
  • 鹧鸪云光储流程系统:储能电站精细化运营的数字基石
  • 深度解构Tokio多线程调度器:从工作窃取到Rust的并发哲学
  • 个人网站可以做推广吗wordpress 亚马逊评论
  • 路桥网站设计wordpress作者信息栏
  • 官方网站建设的四个步骤深圳设计公司招聘信息
  • 湖北洈水水利水电建设公司网站湖南发展最新消息公告
  • 深圳网站建设公司收费标准动漫设计与制作专科学校
  • Agent简介
  • window系统如何用快捷键输入一段文字
  • 手机中有那些常用的5G频段
  • LeetCode:72. 超级次方
  • 网站模板怎么用软件开发流程流程图
  • 东莞seo网站排名wordpress 图片切换插件
  • Algorithm Refinement: ε-Greedy Policy|算法改进:ε-贪婪策略
  • 数学分析简明教程——1.3
  • 请将网站首页底部的备案号网站内容架构拓扑怎么做
  • Flutter---个人信息(2)---实现修改昵称
  • 深入解析 TCP 协议:从细节到实践的全方位解读
  • 题解:P12603 RuShiA(特殊情况下的 RSA 爆破)
  • 营销型网站建设和平台建设网站排行榜查询
  • 【代码】CF915E Physical Education Lessons [动态开点线段树]
  • 打造全新QAgent WeTest AI业务新上线
  • 虚拟主机怎么弄网站网站seo规范
  • 【技术经验】--如何和 Cursor 高效协作
  • 建网上商城的第三方网站哪个好17网站一起做网店潮汕
  • 關於概率部分,準備的三部曲
  • 新人做网站盈利北京小程序 app开发公司
  • 东莞网站设计智能 乐云践新网站开发 所有权