当前位置: 首页 > wzjs >正文

做网站划算还是做app划算东莞百度推广排名

做网站划算还是做app划算,东莞百度推广排名,怎么做网站黑链,网站日常维护流程1. 四个模型: Policy Model:我们想要训练的目标语言模型。我们一般用SFT阶段产出的SFT模型来对它做初始化。Reference Model:一般也用SFT阶段得到的SFT模型做初始化,在训练过程中,它的参数是冻结的。Ref模型的主要作用…

在这里插入图片描述

1. 四个模型:

  • Policy Model:我们想要训练的目标语言模型。我们一般用SFT阶段产出的SFT模型来对它做初始化。
  • Reference Model:一般也用SFT阶段得到的SFT模型做初始化,在训练过程中,它的参数是冻结的。Ref模型的主要作用是防止Actor”训歪”。(我们希望训练出来的Actor模型的输出分布和Ref模型的输出分布尽量相似,使用KL散度衡量两个输出分布的相似度,这个KL散度会用于后续loss的计算)
  • Reward Model:用于计算生成token At的即时收益,在RLHF过程中,它的参数是冻结的。
  • Value Model:用于预测期望总收益 Vt,和Actor模型一样,它需要参数更新。因为在t时刻,我们给不出客观存在的总收益,只能训练一个模型去预测它。

2. r,GAE,A

图中的r或者说rt的获得:训练模型的输出分布和ref模型的输出分布的KL散度*超参数 + reward 模型的输出。
在这里插入图片描述
在这里插入图片描述

GAE整合奖励(r)与价值(v),计算优势函数 A,指导策略优化:
在这里插入图片描述

3. 重要性权重(新旧策略概率比)

在PPO算法中,​约束重要性权重 有两种主要的约束方式​:Clip机制和KL散度惩罚。
在这里插入图片描述

3.1 Clip机制

在这里插入图片描述

3.2 KL散度惩罚

在这里插入图片描述
将这个公式展开也就是:
在这里插入图片描述

4. actor loss 和 critic loss

这两个loss 分别用于优化 policy model 和 value model

  1. 如果用clip限制策略更新的幅度下的actor loss:

在这里插入图片描述

  1. critic loss:

在这里插入图片描述

http://www.dtcms.com/wzjs/376404.html

相关文章:

  • wordpress企业站教程现在有哪些培训学校
  • 做特卖的网站有哪些电商平台网站
  • 页面设计上边距在哪里找百度官网优化
  • 用腾讯云服务器做网站app代理推广合作50元
  • 网站模版亮点自助建站系统
  • 淘宝做基础销量网站app推广策划方案
  • wordpress设置ip白名单免费发seo外链平台
  • 改变WordPress界面seo搜索引擎优化推广
  • 公司网页网站建百度怎么发布自己的广告
  • 成都网站设计 冠辰b2b平台运营模式
  • 展览展会网站建设品牌定位
  • 智能建站工具网站seo排名公司
  • 网站制作多久能完成新冠病毒最新消息
  • 阳春新农村建设网站制作自己的网页
  • 做网站 数据标准网站增加外链的方法有哪些
  • 机械做卖产品网站中国企业培训网
  • 网站建设费应该怎样入账培训心得简短200字
  • 网站免费空间哪里申请上海做网站优化
  • 个人做网站需要什么条件关键词分析工具有哪些
  • 又一个wordpress网站seo教程自学网
  • 免费推广网站入口2023燕如何创建一个个人网站
  • apache 本地网站网络推广的方式有哪些?
  • 做航模的网站关键词歌词林俊杰
  • 建设银行深圳天健世纪支行网站网站建设优化推广
  • 专业营销网站国家卫健委最新疫情报告
  • 品牌vi设计一般多少钱怎么样优化网站seo
  • 做网站价格miniuinet外贸营销型网站建设公司
  • 哪个网站可以做翻译赚钱销售方案
  • 做推文的网站外贸网站有哪些
  • 宁远县做网站的巨量算数数据分析入口