当前位置: 首页 > news >正文

强化学习PPO算法学习记录

在这里插入图片描述

1. 四个模型:

  • Policy Model:我们想要训练的目标语言模型。我们一般用SFT阶段产出的SFT模型来对它做初始化。
  • Reference Model:一般也用SFT阶段得到的SFT模型做初始化,在训练过程中,它的参数是冻结的。Ref模型的主要作用是防止Actor”训歪”。(我们希望训练出来的Actor模型的输出分布和Ref模型的输出分布尽量相似,使用KL散度衡量两个输出分布的相似度,这个KL散度会用于后续loss的计算)
  • Reward Model:用于计算生成token At的即时收益,在RLHF过程中,它的参数是冻结的。
  • Value Model:用于预测期望总收益 Vt,和Actor模型一样,它需要参数更新。因为在t时刻,我们给不出客观存在的总收益,只能训练一个模型去预测它。

2. r,GAE,A

图中的r或者说rt的获得:训练模型的输出分布和ref模型的输出分布的KL散度*超参数 + reward 模型的输出。
在这里插入图片描述
在这里插入图片描述

GAE整合奖励(r)与价值(v),计算优势函数 A,指导策略优化:
在这里插入图片描述

3. 重要性权重(新旧策略概率比)

在PPO算法中,​约束重要性权重 有两种主要的约束方式​:Clip机制和KL散度惩罚。
在这里插入图片描述

3.1 Clip机制

在这里插入图片描述

3.2 KL散度惩罚

在这里插入图片描述
将这个公式展开也就是:
在这里插入图片描述

4. actor loss 和 critic loss

这两个loss 分别用于优化 policy model 和 value model

  1. 如果用clip限制策略更新的幅度下的actor loss:

在这里插入图片描述

  1. critic loss:

在这里插入图片描述

相关文章:

  • 【Pandas】pandas DataFrame clip
  • GET请求如何传复杂数组参数
  • 使用oracle goldengate同步postgresql到postgresql
  • Eclipse SWT 1 等比缩放
  • Web端项目系统访问页面很慢,后台数据返回很快,网络也没问题,是什么导致的呢?
  • 文件包含2
  • OpenCV的 ccalib 模块用于自定义标定板的检测和处理类cv::ccalib::CustomPattern()----函数calibrate
  • 火山引擎火山云主推产品
  • wpf UserControl 更换 自定义基类
  • PX4开始之旅(一)自动调参
  • Windows10 本地部署 IPFS(go-ipfs)
  • NX884NX891美光固态闪存NX895NX907
  • 汽车租赁|基于Java+vue的汽车租赁系统(源码+数据库+文档)
  • 【日撸 Java 三百行】Day 7(Java的数组与矩阵元素相加)
  • RT-Thread 深入系列 Part 1:RT-Thread 全景总览
  • Xterminal(或 X Terminal)通常指一类现代化的终端工具 工具介绍
  • 自定义装饰器
  • 使用AES-CBC + HMAC-SHA256实现前后端请求安全验证
  • P11369 [Ynoi2024] 弥留之国的爱丽丝(操作分块,DAG可达性trick)
  • 太阳能板结构及发电原理与输出特性分析——以杭州 5V 太阳能板为例
  • 重庆荣昌出圈背后:把网络流量变成经济发展的增量
  • AI药企英矽智能第三次递表港交所:去年亏损超1700万美元,收入多数来自对外授权
  • 101条关于减重的知识,其中一定有你不知道的
  • 重温经典|《南郭先生》:不模仿别人,不重复自己
  • 牛市早报|国家发改委:今年将推出约3万亿元优质项目,支持民营企业参与
  • 迪拜金融市场CEO:2024年市场表现出色,超八成新投资者来自海外