当前位置: 首页 > news >正文

自主学习-《Absolute Zero: Reinforced Self-play Reasoning with Zero Data》

1. 监督学习:需要人工给出推理过程;

2. RLVR: 推理过程由agent自我生成和学习,计算reward的gold值是环境或工具给出的,题目仍需要人工给出;

3. 本方法:题目也是agent自己生成的。(gold值仍需环境或工具给出)。

基本理论:

1. SFT的公式:(优化\theta,使得input prompt x生成推理c*和结果y*的概率最大化)

痛点:模型吸收了足够多的知识后,没有更强的模型可供生成数据了,人工来标注数据又太费钱;

2. Reinforcement Learning with Verifiable Rewards的公式:(波浪线表示采样;y是模型采样得到的结果,y*是ground truth结果, r是reward function)

3. 本方法的公式:

示意图:

learnability: 模型训练了该样本之后,变强了多少;(太简单,模型每次都答对,则该样本没价值;太难,模型每次都打错,则该样本也没价值)

本文中,z这个随机变量,是用当前的题目集合中采样几个得到的题目集合;

流程图:

http://www.dtcms.com/a/251492.html

相关文章:

  • 用Jmeter进行接口测试
  • HarmonyOSNext性能核弹:用Node-API引爆ArkTS/C++跨语言
  • MySQL事务:从原理到实践
  • 软件测试用例(一)
  • 私域到底怎么做?
  • 【分析学】 从确界定理出发——实数系完备定理
  • 第十七章:SD如何制作三视图(基础)
  • 如何写一个简单的python类class
  • Gartner《Reference Architecture for Federated Analytics》学习心得
  • Unity Addressable使用之入门篇
  • WebAssembly的本质与核心价值
  • 基于SVD的推荐系统:详尽的原理与实践解析
  • 前端开发面试题总结-vue2框架篇(二)
  • 前端如何调用外部api获取省市区数据
  • 历史数据分析——五粮液
  • 人形机器人:科幻文学与影视中的形象解构
  • Spring有代理对象的循环依赖时,如何确保代理对象能够正确持有原始对象的所有属性赋值结果?
  • 线上GC count突增问题排查及修复记录
  • 操作系统八股文
  • springboot集成dubbo
  • WebSocket深度指南:从零基础到生产级应用
  • DAY 54 Inception网络及其思考
  • 我的项目管理之路-PMO
  • 深度学习——基于卷积神经网络实现食物图像分类【3】(保存最优模型)
  • linux多线程之互斥锁
  • 深入探究其内存开销与JVM布局——Java Record
  • java设计模式[3]之结构性型模式
  • java复习 14
  • 【iReport】实际开发中,解决iReport中打印图片不显示问题
  • Maven之初识与安装