当前位置: 首页 > news >正文

自主学习-《Absolute Zero: Reinforced Self-play Reasoning with Zero Data》

1. 监督学习:需要人工给出推理过程;

2. RLVR: 推理过程由agent自我生成和学习,计算reward的gold值是环境或工具给出的,题目仍需要人工给出;

3. 本方法:题目也是agent自己生成的。(gold值仍需环境或工具给出)。

基本理论:

1. SFT的公式:(优化\theta,使得input prompt x生成推理c*和结果y*的概率最大化)

痛点:模型吸收了足够多的知识后,没有更强的模型可供生成数据了,人工来标注数据又太费钱;

2. Reinforcement Learning with Verifiable Rewards的公式:(波浪线表示采样;y是模型采样得到的结果,y*是ground truth结果, r是reward function)

3. 本方法的公式:

示意图:

learnability: 模型训练了该样本之后,变强了多少;(太简单,模型每次都答对,则该样本没价值;太难,模型每次都打错,则该样本也没价值)

本文中,z这个随机变量,是用当前的题目集合中采样几个得到的题目集合;

流程图:

相关文章:

  • 用Jmeter进行接口测试
  • HarmonyOSNext性能核弹:用Node-API引爆ArkTS/C++跨语言
  • MySQL事务:从原理到实践
  • 软件测试用例(一)
  • 私域到底怎么做?
  • 【分析学】 从确界定理出发——实数系完备定理
  • 第十七章:SD如何制作三视图(基础)
  • 如何写一个简单的python类class
  • Gartner《Reference Architecture for Federated Analytics》学习心得
  • Unity Addressable使用之入门篇
  • WebAssembly的本质与核心价值
  • 基于SVD的推荐系统:详尽的原理与实践解析
  • 前端开发面试题总结-vue2框架篇(二)
  • 前端如何调用外部api获取省市区数据
  • 历史数据分析——五粮液
  • 人形机器人:科幻文学与影视中的形象解构
  • Spring有代理对象的循环依赖时,如何确保代理对象能够正确持有原始对象的所有属性赋值结果?
  • 线上GC count突增问题排查及修复记录
  • 操作系统八股文
  • springboot集成dubbo
  • 学校网站建设的作用/百度如何做广告
  • 自己做网站哪里最好/营口seo
  • 菏泽网站建设电话咨询/免费b站推广网站2022
  • 在线旅游网站建设前的调研/苏州关键词seo排名
  • 自己做网站好不好/seo站内优化和站外优化
  • 平谷网站建设/怎么做一个公司网站