当前位置：首页 > news >正文

强化学习PPO算法学习记录

news 2025/7/2 9:10:06

在这里插入图片描述

1. 四个模型：

Policy Model：我们想要训练的目标语言模型。我们一般用SFT阶段产出的SFT模型来对它做初始化。
Reference Model：一般也用SFT阶段得到的SFT模型做初始化，在训练过程中，它的参数是冻结的。Ref模型的主要作用是防止Actor”训歪”。（我们希望训练出来的Actor模型的输出分布和Ref模型的输出分布尽量相似，使用KL散度衡量两个输出分布的相似度，这个KL散度会用于后续loss的计算）
Reward Model：用于计算生成token At的即时收益，在RLHF过程中，它的参数是冻结的。
Value Model：用于预测期望总收益 Vt，和Actor模型一样，它需要参数更新。因为在t时刻，我们给不出客观存在的总收益，只能训练一个模型去预测它。

2. r，GAE，A

图中的r或者说rt的获得：训练模型的输出分布和ref模型的输出分布的KL散度*超参数 + reward 模型的输出。
在这里插入图片描述

GAE整合奖励（r）与价值（v），计算优势函数 A，指导策略优化：
在这里插入图片描述

3. 重要性权重（新旧策略概率比）

在PPO算法中，约束重要性权重有两种主要的约束方式：Clip机制和KL散度惩罚。
在这里插入图片描述

3.1 Clip机制

在这里插入图片描述

3.2 KL散度惩罚

在这里插入图片描述
将这个公式展开也就是：

4. actor loss 和 critic loss

这两个loss 分别用于优化 policy model 和 value model

如果用clip限制策略更新的幅度下的actor loss：

在这里插入图片描述

critic loss：

在这里插入图片描述

http://www.dtcms.com/a/180935.html

相关文章：

【Pandas】pandas DataFrame clip

GET请求如何传复杂数组参数

使用oracle goldengate同步postgresql到postgresql

Eclipse SWT 1 等比缩放

Web端项目系统访问页面很慢，后台数据返回很快，网络也没问题，是什么导致的呢？

文件包含2

OpenCV的 ccalib 模块用于自定义标定板的检测和处理类cv::ccalib::CustomPattern（）----函数calibrate

火山引擎火山云主推产品

wpf UserControl 更换自定义基类

PX4开始之旅(一)自动调参

Windows10 本地部署 IPFS（go-ipfs）

NX884NX891美光固态闪存NX895NX907

汽车租赁|基于Java+vue的汽车租赁系统(源码+数据库+文档)

【日撸 Java 三百行】Day 7（Java的数组与矩阵元素相加）

RT-Thread 深入系列 Part 1：RT-Thread 全景总览

Xterminal（或 X Terminal）通常指一类现代化的终端工具工具介绍

自定义装饰器

使用AES-CBC + HMAC-SHA256实现前后端请求安全验证

P11369 [Ynoi2024] 弥留之国的爱丽丝（操作分块，DAG可达性trick）

太阳能板结构及发电原理与输出特性分析——以杭州 5V 太阳能板为例

北斗导航｜ RTKLib中模糊度解算详解，公式，代码

[计算机科学#12]:高级编程语言基本元素，迅速上手编程

WebSocket：实时通信的新时代

使用React实现调起系统相机功能

如何利用爬虫获得1688商品详情：实战指南

汽车制造行业的数字化转型

塔能工业互联节能方案：数据驱动工业制造绿色转型

【软件设计师：软件】20.软件设计概述

STM32CubeMX安装及使用分享

【智体OS】AI社交产品头榜赋能电商新零售：某品牌吹风机的智能营销实战案例