当前位置：首页 > news >正文

自主学习-《Absolute Zero: Reinforced Self-play Reasoning with Zero Data》

news 2025/8/19 13:54:37

1. 监督学习：需要人工给出推理过程；

2. RLVR: 推理过程由agent自我生成和学习，计算reward的gold值是环境或工具给出的，题目仍需要人工给出；

3. 本方法：题目也是agent自己生成的。（gold值仍需环境或工具给出）。

基本理论：

1. SFT的公式：（优化 $\theta$ ，使得input prompt x生成推理c*和结果y*的概率最大化）

痛点：模型吸收了足够多的知识后，没有更强的模型可供生成数据了，人工来标注数据又太费钱；

2. Reinforcement Learning with Verifiable Rewards的公式：（波浪线表示采样；y是模型采样得到的结果，y*是ground truth结果, r是reward function)

3. 本方法的公式：

示意图：

learnability: 模型训练了该样本之后，变强了多少；（太简单，模型每次都答对，则该样本没价值；太难，模型每次都打错，则该样本也没价值）

本文中，z这个随机变量，是用当前的题目集合中采样几个得到的题目集合；

流程图：

http://www.dtcms.com/a/251492.html

相关文章：

用Jmeter进行接口测试

HarmonyOSNext性能核弹：用Node-API引爆ArkTS/C++跨语言

MySQL事务：从原理到实践

软件测试用例(一)

私域到底怎么做？

【分析学】从确界定理出发——实数系完备定理

第十七章：SD如何制作三视图（基础）

如何写一个简单的python类class

Gartner《Reference Architecture for Federated Analytics》学习心得

Unity Addressable使用之入门篇

WebAssembly的本质与核心价值

基于SVD的推荐系统：详尽的原理与实践解析

前端开发面试题总结-vue2框架篇（二）

前端如何调用外部api获取省市区数据

历史数据分析——五粮液

人形机器人：科幻文学与影视中的形象解构

Spring有代理对象的循环依赖时，如何确保代理对象能够正确持有原始对象的所有属性赋值结果？

线上GC count突增问题排查及修复记录

操作系统八股文

springboot集成dubbo

WebSocket深度指南：从零基础到生产级应用

DAY 54 Inception网络及其思考

我的项目管理之路-PMO

深度学习——基于卷积神经网络实现食物图像分类【3】（保存最优模型）

linux多线程之互斥锁

深入探究其内存开销与JVM布局——Java Record

java设计模式[3]之结构性型模式

java复习 14

【iReport】实际开发中，解决iReport中打印图片不显示问题

Maven之初识与安装