当前位置: 首页 > news >正文

聊聊大模型的self-training:从Test-time RL说起

文章目录

    • 前言:自监督——大模型进化的必由之路
    • TTRL: Test-time Reinforcement Learning —— 开启无监督RL的大门
    • Confidence is all you need: Few-shot RL fine-tuning of language models —— 从投票到置信度
    • Can large reasoning models self-train? —— 揭示“训练崩溃”的风险与对策
    • Co-reward: Self-supervised reinforcement learning for large language model reasoning via contrastive agreement —— 用对比学习破解崩溃难题
    • 总结与展望:自监督RL的技术脉络与未来

前言:自监督——大模型进化的必由之路

在大型语言模型(LLM)的后训练时代,一个核心挑战是如何在不依赖海量人工标注数据的前提下,持续提升模型的推理和任务解决能力。传统的监督微调(SFT)和基于人类反馈的强化学习(RLHF)虽然有效,但其成本高昂且难以规模化。正是在这样的背景下,自监督学习(Self-supervised Learning) 以其独特的优势脱颖而出。

自监督的核心思想是让模型利用数据本身或其内在结构来生成监督信号,从而实现“自我进化”。正如一些研究所指出的,自学习(Self-learning)能够促进LLM向超级智能迈进,通过训练自我合成的经验 。这种方法允许LLM自主筛选标签,并选择性地在未知数据样本上进行训练 。其最大优势在于能够利用互联网上近乎无限的无标签数据,极大地降低了对人工标注的依赖,为模型的规模化、自动化迭代铺平了道路。最近在文本到语音(TTS)等领域流行的World Model或Critic模型,其本质也是在寻求一种廉价、自动化的奖励信号,这与自监督RL的思路不谋而合。本文将聚焦于2025年涌现的几篇关键论文,探讨大模型如何通过Test-time RL等自监督强化学习方法实现自我训练。

TTRL: Test-time Reinforcement Learning —— 开启无监督RL的大门

在这里插入图片描述

文献链接:http://arxiv.org/abs/2504.16084
发布时间:2025-04-22

TTRL(Test-Time Reinforcement Learning)是这一系列研究的开创性工作。其核心洞见极具启发性:在推理时(Test-Time)常用的技术,如“多数投票”(Majority Voting),其产生的信号可以被巧妙地转化为训练时的奖励函数。

具体而言,TTRL在没有真实标签(ground-truth)的情况下,通过对同一个问题进行多次采样(rollout),然后采用多数投票的结果作为“伪标签”,并以此计算奖励来驱动强化学习。这种方法完全摆脱了对外部奖励模型或人工标注的依赖,实现了LLM的“自我进化”。实验结果令人震惊:在仅使用无标签测试数据的情况下,TTRL将Qwen-2.5-Math-7B模型在AIME 2024数据集上的pass@1性能提升了约211%。更令人惊讶的是,尽管TTRL的优化目标是提升maj@n指标,但其最终性能甚至能超越初始模型的maj@n理论上限,并逼近使用真实标签训练的模型。


文章转载自:

http://gdXjafjd.wLggr.cn
http://gj4lE2kg.wLggr.cn
http://2ttPDXtB.wLggr.cn
http://IGE0s9Ho.wLggr.cn
http://qUIA0hrI.wLggr.cn
http://3ylmFuy2.wLggr.cn
http://rlmQvAIl.wLggr.cn
http://5xm3OHu6.wLggr.cn
http://kq50poq2.wLggr.cn
http://2uQVlYTj.wLggr.cn
http://5YOEkW6R.wLggr.cn
http://IR3aOoBL.wLggr.cn
http://jUNVuCgf.wLggr.cn
http://eLWUc9oQ.wLggr.cn
http://c3ojX0xF.wLggr.cn
http://osety61k.wLggr.cn
http://mRYSaG2n.wLggr.cn
http://CZkodnIg.wLggr.cn
http://PwnJvs1i.wLggr.cn
http://Gvo6rdX9.wLggr.cn
http://gHykvqbU.wLggr.cn
http://1nTFcxvw.wLggr.cn
http://EEAP8mea.wLggr.cn
http://rDeiIqys.wLggr.cn
http://qbhNk5OP.wLggr.cn
http://6dMYAxOY.wLggr.cn
http://bV8MNd7w.wLggr.cn
http://4hLLVeC2.wLggr.cn
http://H8qEH5ac.wLggr.cn
http://9oC2Mja7.wLggr.cn
http://www.dtcms.com/a/385496.html

相关文章:

  • 星穹无损合约:以信任为基石,开启DeFi新纪元
  • cJSON的安装和使用
  • godot+c#实现玩家的简单移动
  • 【工具】多线程任务执行函数
  • 使用 Spring Boot 搭建和部署 Kafka 消息队列系统
  • scikit-learn pipeline做数据预处理 模板参考
  • MATLAB的二维SIMPLE算法实现方腔自然对流
  • SPMI总线协议(二)
  • 全场景流畅投屏,跨 VLAN 技术成酒店智能升级核心动力
  • 5.MQ常见问题梳理
  • 数字人作为广播工具:消息透传接口的作用和实现
  • 解读50页企业运维管理体系总体规划【附全文阅读】
  • 如何离线安装docker-compose
  • 冒泡排序Java第一版
  • DevOps历程--Docker安装Jenkins详细教程
  • 《自动控制原理》第 1 章 绪论
  • 【10】C#实战篇——C# 调用 C++ dll(C++ 导出函数、C++导出类)
  • Flask框架的简单了解
  • 高性能代码优化实战与解析
  • 企业即时通讯保障企业通讯安全,提升企业部门协作效率
  • 在亚洲市场:为何CES Asia无法被复制?
  • 【cpp Trip第2站】map,set,hash
  • 菊风携手东莞银行,推进金融信创国产化进程
  • 内部类的用法
  • 设计模式(C++)详解—适配器模式(2)
  • 6.Cesium 学习
  • 拉氏变换的 s 域微分性质
  • 掌握Scrapy数据建模与请求技巧
  • LLaMA Factory微调记录(重修版)
  • JAVA开发面试题