強化學習實例(模仿rift)

 rl主要有两点改动
rl主要有两点改动
1.在数据层面,根据模型的训练结果对主车的位置进行移动,然后根据移动结果重新生成batch_data,然后对batch_data进行推理,得到相应的reward,目前reward主要还是relation
2.对模型进行推理,根据reward去计算loss
這裡只對prob進行了rl微调,整体思路就是说,如果ade、collision和真值差距大的话,prob的分布也要和闭环得到的数据差距大;如果ade、collision和真值差距小的话,prob的分布要和闭环的数据相似
分布相似用kl散度来表示:https://blog.csdn.net/Rocky6688/article/details/103470437
