聊聊大模型的self-training:从Test-time RL说起
文章目录
-
- 前言:自监督——大模型进化的必由之路
- TTRL: Test-time Reinforcement Learning —— 开启无监督RL的大门
- Confidence is all you need: Few-shot RL fine-tuning of language models —— 从投票到置信度
- Can large reasoning models self-train? —— 揭示“训练崩溃”的风险与对策
- Co-reward: Self-supervised reinforcement learning for large language model reasoning via contrastive agreement —— 用对比学习破解崩溃难题
- 总结与展望:自监督RL的技术脉络与未来
前言:自监督——大模型进化的必由之路
在大型语言模型(LLM)的后训练时代,一个核心挑战是如何在不依赖海量人工标注数据的前提下,持续提升模型的推理和任务解决能力。传统的监督微调(SFT)和基于人类反馈的强化学习(RLHF)虽然有效,但其成本高昂且难以规模化。正是在这样的背景下,自监督学习(Self-supervised Learning) 以其独特的优势脱颖而出。
自监督的核心思想是让模型利用数据本身或其内在结构来生成监督信号,从而实现“自我进化”。正如一些研究所指出的,自学习(Self-learning)能够促进LLM向超级智能迈进,通过训练自我合成的经验 。这种方法允许LLM自主筛选标签,并选择性地在未知数据样本上进行训练 。其最大优势在于能够利用互联网上近乎无限的无标签数据,极大地降低了对人工标注的依赖,为模型的规模化、自动化迭代铺平了道路。最近在文本到语音(TTS)等领域流行的World Model或Critic模型,其本质也是在寻求一种廉价、自动化的奖励信号,这与自监督RL的思路不谋而合。本文将聚焦于2025年涌现的几篇关键论文,探讨大模型如何通过Test-time RL等自监督强化学习方法实现自我训练。
TTRL: Test-time Reinforcement Learning —— 开启无监督RL的大门
文献链接:http://arxiv.org/abs/2504.16084
发布时间:2025-04-22
TTRL(Test-Time Reinforcement Learning)是这一系列研究的开创性工作。其核心洞见极具启发性:在推理时(Test-Time)常用的技术,如“多数投票”(Majority Voting),其产生的信号可以被巧妙地转化为训练时的奖励函数。
具体而言,TTRL在没有真实标签(ground-truth)的情况下,通过对同一个问题进行多次采样(rollout),然后采用多数投票的结果作为“伪标签”,并以此计算奖励来驱动强化学习。这种方法完全摆脱了对外部奖励模型或人工标注的依赖,实现了LLM的“自我进化”。实验结果令人震惊:在仅使用无标签测试数据的情况下,TTRL将Qwen-2.5-Math-7B模型在AIME 2024数据集上的pass@1性能提升了约211%。更令人惊讶的是,尽管TTRL的优化目标是提升maj@n指标,但其最终性能甚至能超越初始模型的maj@n理论上限,并逼近使用真实标签训练的模型。