当前位置: 首页 > news >正文

网站人多怎么优化全网引擎搜索

网站人多怎么优化,全网引擎搜索,网页设计作品欣赏分析,天门市网站建设一、前言 PPO的基础可以在前面看一下: 从基础概念->策略梯度->RLOO->GAE->TRPO->PPO 之后如何让PPO训练稳定,也是个巨大的命题。会有很多trick,这次聊一下。 主要读这个,写的很全面: https://arxiv.org…

一、前言

PPO的基础可以在前面看一下:

从基础概念->策略梯度->RLOO->GAE->TRPO->PPO

之后如何让PPO训练稳定,也是个巨大的命题。会有很多trick,这次聊一下。

主要读这个,写的很全面:

  • https://arxiv.org/pdf/2307.04964

这个博客不会把论文中的各种交融实验花太多的篇幅来讲,主要是把各种策略都列出来,具体的结果,可以直接训练中感受~

二、训练可能出现的问题

RL训练非常常见的一个问题是:训练崩溃

Policy Model被过度优化,通过一些特殊策略去欺骗reward系统,拿到高分,实际上且和我们的需求不符。

红色线表示winrate sft模型,sft模型就是我们要优化的policy模型,这里展现的是winrate在降低而reward持续提升,表示当前的评估和reward score趋势表现的不一致,就可能是目前这种情况导致的。

其实从使用一个随机的子训练集的reward score分布也可以看出一些端倪,会出现和之前old policy模型不一样的特征情况:

所以大概RL训练出现崩溃的步数在700左右的位置。

三、PPO-MAX

左图显示了PPO RLHF框架的等效结构。右侧显示PPO的实现详细列表。带圆圈的数字表示该策略在PPO训练中的使用位置。五角星表示PPO-max使用的方法。

其中右侧的表示各种PPO训练稳定性的trick。其中PPO-MAX是包含了带五角星的trick的架构,可以提供一组支持稳定优化的实现情况

3.1 参数重置

{r(x,y)}≜{rn(x,y)}n=1B\{ r(x,y)\} \triangleq \{ r_n(x,y)\} _{n = 1}^{\mathcal{B}}{r(x,y)}{rn(x,y)}n=1B 表示训练中的奖励序列,rn(x,y)r_n(x,y)rn(x,y) 表示每批奖励的结果。

σ(A)\sigma(A)σ(A)Aˉ\bar{A}Aˉ 分别表示变量 AAA 的均值和标准差

奖励缩放(Reward Scaling)
rn(x,y)=rn(x,y)/σ(r(x,y)) r_n(x,y) = r_n(x,y)/\sigma(r(x,y)) rn(x,y)=rn(x,y)/σ(r(x,y))

奖励归一化与裁剪(Reward Normalization and Clipping)
r~(x,y)=clip⁡(rn(x,y)−r(x,y)‾σ(r(x,y)),−δ,δ) \tilde{r}(x, y)=\operatorname{clip}\left(\frac{r_n(x, y)-\overline{r(x, y)}}{\sigma(r(x, y))},-\delta, \delta\right) r~(x,y)=clip(σ(r(x,y))rn(x,y)r(x,y),δ,δ)

优势归一化与裁剪(Advantages Normalization and Clipping)

A~=clip⁡(A−A‾σ(A),−δ,δ) \tilde{A}=\operatorname{clip}\left(\frac{A-\overline{A}}{\sigma(A)},-\delta, \delta\right) A~=clip(σ(A)AA,δ,δ)

区别在于 优势函数只在minibatch范围

消融实验

3.2 策略限制

token level的KL散度惩罚:

rtotal(x,yi)=r(x,yi)−ηKL(πθRL(yi∣x),πRef(yi∣x)), r_{\text{total}}(x, y_i) = r(x, y_i) - \eta \text{KL} \big( \pi_\theta^{\text{RL}}(y_i \mid x), \pi^{\text{Ref}}(y_i \mid x) \big), rtotal(x,yi)=r(x,yi)ηKL(πθRL(yix),πRef(yix)),

Entropy Bonus

利用交叉熵的loss来代表策略的探索性

LENTROPY=−∑xp(x)log⁡p(x) L_{\text{ENTROPY}} = -\sum_{x} p(x) \log p(x) LENTROPY=xp(x)logp(x)

消融实验

3.3 预训练初始化

一个常见的设置是用参考模型和奖励模型初始化策略和评论家模型。

直接看结果:

Critic Model Initialization

  1. 用SFT模型初始化critic模型,并随机初始化其奖励头。
  2. 只优化奖励模型,直到值损失预测函数接近零。

基于实验结果,论文认为critic预训练提供更好的优势估计,有助于提高训练的稳定性。用reward model或SFT model作为critic将收敛到类似的结果,这意味着PPO可以自适应地提供拟合优势函数的能力。

Policy Model Initialization

Policy用pretrain的模型,而不是sft后的模型,效果可以看到非常差,相当于没用微调,直接从pretrain到与人类偏好对齐了。

http://www.dtcms.com/a/462576.html

相关文章:

  • 10-七麦js扣代码
  • 做一婚恋网站多少钱医疗网络营销方式
  • golang面经——sync相关
  • wordpress 财经插件wordpress mysql优化
  • 软考中级习题与解答——第十四章_UML建模(5)
  • 万网怎样做网站调试字体怎么装到wordpress
  • 【Open3D】Ch.2:点云体素下采样 | Python
  • 奉贤区做网站wordpress五分钟安装
  • 复杂网络仿真从入门到精通:0 学习路线
  • 怎样创建网站数据库服装租赁 网站 php
  • 礼品工艺品网站建设首页网站模板
  • 福州推广企业网站网站优化助手
  • Playwright MCP 使用归档:让 AI IDE 看懂 API 文档与流程图
  • 网站优化 情况公司注册地址在哪里查询
  • (二)Kafka学习笔记(p13-p23)
  • .net 微信网站开发wordpress 安装 此网页包含重定向循环
  • 【开题答辩过程】以《基于SpringBoot的消防安全应急培训管理平台》为例,不会开题答辩的可以进来看看
  • iis 创建网站o2o有哪些电商平台
  • 南京市环保局官方南京做网站wordpress制作404页面模板
  • python入门到入土---装饰器
  • 自己做网站不推广东莞网站建设哪家专业
  • ubuntu 安装应用
  • 重庆媒体网站建设单价做网站需要登录什么软件
  • 学生管理系统2.0(面向对象)
  • 桐庐建设局网站网络营销方案500字
  • 线段树上二分模板
  • Origin绘制3D坐标下边际直方图
  • 二叉树OJ(三)543. 二叉树的直径 124. 二叉树中的最大路径和 困难
  • 濮阳做公司网站重庆物流最新消息
  • IDEA Maven 仓库配置优先级