当前位置: 首页 > wzjs >正文

最好的建站平台百度快照是怎么做上去的

最好的建站平台,百度快照是怎么做上去的,wordpress带商城,网页游戏排行榜前十2023DeepSeek训练中应用的GRPO算法,它源自于强化学习领域的PPO算法。GRPO与PPO算法之间存在哪些差异?这两种算法各自的优劣何在?为何DeepSeek选择采用GRPO算法而非PPO算法?本文将对这些问题提供解答。 一、PPO算法 PPO(Pr…

DeepSeek训练中应用的GRPO算法,它源自于强化学习领域的PPO算法。GRPO与PPO算法之间存在哪些差异?这两种算法各自的优劣何在?为何DeepSeek选择采用GRPO算法而非PPO算法?本文将对这些问题提供解答。

一、PPO算法

PPO(Proximal Policy Optimization)算法,是OpenAI在2017年公开的算法。PPO 的思路:Actor + Critic + Clip + KL 惩罚。

Actor :

强化学习需要一个参考线(baseline),来促进学习效率。类似图片分类,类别A训练的好能达到80分,类别B训练的不到位30分,假设baseline设为60分,A学到80分则奖励,B学到30分则惩罚,谁学的分多,谁就奖励的多。一开始听上去没毛病,但结果就有两个问题:

1. 不公平:如果类别B从 30 分进步到 60 分,付出了非常大的代价,却依然比不过类别A随便能达到80分, B得不到有效奖励,无法促进B进步。

2. 不稳定:类别A能达到80分,总能获得奖励,会导致类别A总能获得奖励,进而发生过拟合。对训练集能得到高奖励,对测试数据会变成惩罚,导致奖励信号也忽上忽下。

这样一来,只拿绝对分数当作 Reward,类别A容易过拟合,类别B得不到应有的奖励,训练轮数多了,B就没动力进步了。

Critic:

针对上面的问题,“不能光看绝对分,而要看看每个类别在自己水平线之上进步多少才是关键。”Critic用”预期分数“来改善奖励机制。

critic动态设置预期分数,对类别A将baseline设置为85分,对类别B将baseline设置为40分。每个类别实际 Reward 超过了 Critic 的预期分数,就会得到奖励;低于预期分数,就会得到惩罚。critic不断动态调整预期分数,就将类别A和类别B都激励的得分更高。

Clip

设置一个最大、最小的步伐,在优化过程中每次进步不能太大,退步也不能太大。防止个别奇点数据对训练造成坏影响。

KL 惩罚

防止极端训练情况出现的一个附加约束,新的状态不能和这个初始策略差太远,否则就要受到惩罚。防止Actor 为了短期 Reward 而脱离原本的合理范围,保证模型在进化过程中不会偏得太离谱。

二、GRPO算法

Group Relative Policy Optimization(GRPO:用”历史多次预测值的平均值“代替baseline。

其核心要点包括:

不需“学习”一个独立的价值网络作为 Critic;

而是针对同一问题、同一状态,先利用旧策略进行多次输出采样,然后将这些输出的平均 Reward 作为基准(baseline);

高于平均值的 Reward 表示“正向 Advantage”,而低于平均值则表示“负向 Advantage”。

三、PPO和GRPO的区别

四、面试题:

算法核心机制


1. GRPO中Clip方法和KL Penalty的作用与区别是什么?
Clip方法:通过截取新旧策略的重要性采样比率(如限制比率在1−ε,1+ε范围内),直接限制策略更新的幅度,防止单一样本的过度优化导致策略突变。
KL Penalty:在目标函数中加入新旧策略之间的KL散度惩罚项,间接约束策略变化幅度,自适应调整惩罚强度以平衡探索与稳定性。
区别:Clip通过“硬约束”直接限制更新范围,实现简单;KL Penalty通过动态调整惩罚系数实现“软约束”,更适合复杂任务但对计算资源要求更高。


2. GRPO为何同时使用Clip和KL Penalty?有何优劣势?
优势:双重约束显著提升训练稳定性,尤其适用于大模型训练中的策略收敛问题。
劣势:实现复杂度增加(需同时计算截取比率和KL散度),且资源消耗更高(如显存占用)。


3. GRPO与PPO的核心差异是什么?
优势估计方式:
       PPO依赖Critic网络(价值模型)计算广义优势估计(GAE)。
       GRPO通过组内样本奖励的标准化计算相对优势(如组内均值方差归一化),无需Critic网络。
资源效率:GRPO节省了Critic网络的计算和显存开销,更适合大规模模型训练。


4. GRPO相比PPO的优劣势是什么?
优势:
       资源节约:去除Critic网络降低显存占用,提升训练速度。
       过程奖励利用:组内对比能更灵活捕捉过程奖励信号(如中间步骤的格式正确性)。
劣势:
       依赖样本质量:若组内样本多样性不足或质量差(如全错误答案),标准化后的优势估计失效。
       探索能力受限:Clip的固定阈值可能限制策略的探索空间。


5.为何DeepSeek选择GRPO而非PPO?
规则化奖励场景适配:DeepSeek训练中多使用基于规则的奖励(如数学答案准确性、输出格式规范),无需复杂Critic模型,GRPO的组内相对优势计算更高效。
资源优化需求:去除Critic网络后,GRPO在千亿参数模型训练中显存占用减少约30%,加速迭代效率。


6.GRPO的适用场景与局限性?
适用场景
       显存资源受限的大模型训练
       奖励规则明确、无需复杂价值估计的任务(如数学解题、格式校验)。
局限性:
      组内样本需保证多样性(如不同难度、正负样本混合),否则优势估计失真。
      动态任务中需频繁调整组大小(如N值),增加调参成本。


7. GRPO的组大小(N)如何影响训练效果?
小N(如N=16):优势估计波动大,但对显存友好,适合简单任务。
大N(如N=124):估计更稳定,但需更高并行计算能力,适合复杂长序列任务。


8.如何缓解GRPO的样本质量依赖问题?
数据预处理:对组内样本进行多样性筛选(如聚类去重)。
混合训练:结合Critic网络的稀疏调用,周期性校准优势估计。

http://www.dtcms.com/wzjs/415539.html

相关文章:

  • 常宁网站制作营销型网站分为哪几种
  • 苏州要服务网站建设百度关键词排名怎么查
  • 类似稿定设计的网站无锡网站制作
  • 北京目前的疫情情况seo合作
  • 在哪人网站要以接it项目做2019网站seo
  • 咋样建设网站免费手机优化大师下载安装
  • 微信开放平台在哪里进入重庆seo优化效果好
  • 网站开发与维护是学什么搜索引擎调词平台价格
  • 外贸购物网站建站福州网站seo
  • 网站开发税目编码北京网站制作公司
  • 怎样接做网站和软件的活目前最新推广平台
  • 怎么入驻电商平台成都seo论坛
  • 跨境电子商务网站建设实事新闻热点
  • wordpress 图片轮换优化公司排名
  • 杭州 商城网站开发什么是网络推广工作
  • 做建材的网站有哪些爱站网站排名查询工具
  • 网站开发框架参考文献国际机票搜索量大涨
  • 礼物说网站模板微信公众号怎么开通
  • 销售网站开发北京广告公司
  • 网站机房建设成本免费推广app
  • 用户体验设计流程网络公司优化关键词
  • 平台网站做代理商网站建设方案书 模板
  • 2015做外贸网站好做吗seo排名怎么样
  • 黄骅做网站_黄骅昊信科技|黄骅网站|黄骅网站开发|黄骅微信|黄骅有没有免费的广告平台
  • 没有货源可以开网店吗扬州整站seo
  • 偷拍网站做免费注册个人网站
  • 公司网站设计与制互联网推广项目
  • ubuntu下做网站seo扣费系统
  • 天津建设工程信息网专家灯塔网站seo
  • 高端网站建设哪家更专业建网站的软件有哪些