当前位置：首页 > news >正文

強化學習實例(模仿rift)

news 2025/10/31 13:41:39

请添加图片描述 rl主要有两点改动
1.在数据层面，根据模型的训练结果对主车的位置进行移动，然后根据移动结果重新生成batch_data，然后对batch_data进行推理，得到相应的reward，目前reward主要还是relation
2.对模型进行推理，根据reward去计算loss

這裡只對prob進行了rl微调，整体思路就是说，如果ade、collision和真值差距大的话，prob的分布也要和闭环得到的数据差距大；如果ade、collision和真值差距小的话，prob的分布要和闭环的数据相似

分布相似用kl散度来表示：https://blog.csdn.net/Rocky6688/article/details/103470437

http://www.dtcms.com/a/550440.html

相关文章：

LLM-based Agent

23种设计模式-框架中的使用

鹧鸪云光储流程系统：储能电站精细化运营的数字基石

深度解构Tokio多线程调度器：从工作窃取到Rust的并发哲学

个人网站可以做推广吗wordpress 亚马逊评论

路桥网站设计wordpress作者信息栏

官方网站建设的四个步骤深圳设计公司招聘信息

湖北洈水水利水电建设公司网站湖南发展最新消息公告

深圳网站建设公司收费标准动漫设计与制作专科学校

Agent简介

window系统如何用快捷键输入一段文字

手机中有那些常用的5G频段

LeetCode:72. 超级次方

网站模板怎么用软件开发流程流程图

东莞seo网站排名wordpress 图片切换插件

Algorithm Refinement: ε-Greedy Policy｜算法改进：ε-贪婪策略

数学分析简明教程——1.3

请将网站首页底部的备案号网站内容架构拓扑怎么做

Flutter---个人信息（2）---实现修改昵称

深入解析 TCP 协议：从细节到实践的全方位解读

题解：P12603 RuShiA（特殊情况下的 RSA 爆破）

营销型网站建设和平台建设网站排行榜查询

【代码】CF915E Physical Education Lessons [动态开点线段树]

打造全新QAgent WeTest AI业务新上线

虚拟主机怎么弄网站网站seo规范

【技术经验】--如何和 Cursor 高效协作

建网上商城的第三方网站哪个好17网站一起做网店潮汕

關於概率部分，準備的三部曲

新人做网站盈利北京小程序 app开发公司

东莞网站设计智能乐云践新网站开发所有权