当前位置：首页 > news >正文

【AI论文】Genius：一种用于高级推理的可泛化和纯无监督的自我训练框架

news 2025/8/14 4:57:32

摘要：提高法学硕士的推理技能引起了广泛的兴趣。然而，目前的训练后技术严重依赖于监督信号，如结果监督或辅助奖励模型，这面临着可扩展性和高标注成本的问题。这促使我们加强LLM推理，而不需要外部监督。我们介绍了一种可推广的纯无监督自训练框架，名为Genius。在没有外部辅助的情况下，Genius需要逐步寻找最佳响应序列并优化LLM。为了探索潜在的步骤并利用最佳的步骤，Genius引入了一种逐步预见性重采样策略，通过模拟未来的结果来采样和估计步骤值。此外，我们认识到，无监督的设置不可避免地会引入内在的噪声和不确定性。为了提供稳健的优化，我们提出了优势校准优化（ACO）损失函数来缓解估计不一致。将这些技术结合在一起，Genius为自我改进的LLM推理提供了一个先进的初始步骤，它可以使用通用查询，无需监督，在通用查询的广泛可用性下，彻底改变了推理扩展定律。代码将在https://github.com/xufangzhi/Genius上发布。Huggingface链接：Paper page，论文链接：2504.08672

研究背景与目的

研究背景

随着大型语言模型（LLMs）的快速发展，其在各种自然语言处理任务中展现出了强大的能力。然而，LLMs的推理能力，尤其是其在复杂、高级推理任务中的表现，仍然是当前研究的热点和难点。传统的增强LLMs推理能力的方法往往依赖于大量的监督信号，如结果监督或辅助奖励模型。这些方法虽然有效，但面临着可扩展性差和高标注成本的问题。具体来说，对于许多实际问题，缺乏明确的解决方案或显式的地面真值（ground truth），这限制了这些方法在更广泛推理任务中的应用。此外，训练一个泛化能力强的奖励模型也需要昂贵的标注资源，并且可能导致奖励黑客攻击（reward hacking）问题。

研究目的

鉴于上述问题，本文的研究目的是提出一种可泛化和纯无监督的自我训练框架（Genius），以在不依赖外部监督的情况下提高LLMs的推理能力。Genius旨在通过利用通用查询（general queries）来自我改进LLMs的推理能力，从而革命性地改变推理扩展定律，利用大量可用的通用查询来显著提升LLMs的推理能力。

研究方法

核心框架

Genius框架的核心思想是通过自我训练来优化LLMs，而不需要外部监督。它主要包括两个步骤：合成和奖励响应（synthesizing and rewarding the responses），以及用响应优化LLMs（optimizing the LLMs with responses）。

响应合成与奖励
- 逐步预见性重采样策略：为了找到最佳的响应序列，Genius采用了一种逐步预见性重采样策略。该策略在每一步都通过模拟未来步骤来采样和估计步骤值。具体来说，对于每个候选步骤，Genius会滚动生成一组未来步骤，并计算其平均对数概率作为预见性分数。然后，基于这些预见性分数，Genius会选择下一个步骤，并收集偏好对用于训练。
- 探索与利用的平衡：为了平衡探索和利用，Genius在每一步都会重新采样来生成正负响应序列。正面响应是预见性分数最高的序列，而负面响应是从剩余分布中重新采样的序列。通过这种方式，Genius能够在保持多样性的同时避免过拟合。
优势校准优化（ACO）损失函数
- 自我奖励函数：在无监督设置下，无法直接训练奖励模型。因此，Genius利用政策LLM（policy LLM）作为隐式奖励模型，并定义了自我奖励函数。该函数基于政策LLM和参考模型（reference model）之间的对数概率比。
- 优势校准：为了缓解无监督设置下的估计不一致问题，Genius提出了优势校准优化（ACO）损失函数。该函数通过计算正负响应序列之间的优势差异来校准自我奖励函数。如果负面响应序列提供的优势大于正面响应序列，则负面响应将受到较小的惩罚。

实验设置

训练语料：本文使用了两个通用语料库（Magpie和OpenHermes-2.5）作为训练查询来源。从每个语料库中随机选择了25K和32K查询分别用于自我训练。
评估任务：为了全面评估LLMs的基本推理能力，本文在多个基准测试上进行了实验，包括数学推理（GSM8K、MATH、GPQA）、逻辑推理（ReClor、LogiQA）、一般推理（StrategyQA、ARC-Challenge）以及一般领域的基准测试（AlpacaEval、WildBench、ArenaHard、WikiBench、MMLU、MMLU-Pro）。
基线方法：本文比较了多种基线方法，包括需要监督信号的SFT和SPIN，以及仅需要无监督查询的STaR、CoH、Self-Rewarding和ScPO。

研究结果

主要结果

显著提升推理能力：实验结果表明，Genius能够显著提升LLMs的推理能力。以LLaMA3.1-8B-Instruct为基线模型，在使用25K Magpie查询进行自我训练后，Genius在平均CoT推理性能上提高了7.43%。在使用OpenHermes-2.5作为训练语料时，提升效果更为明显。
优于基线方法：与所有强基线方法相比，Genius在平均性能上表现出色，具有超过2%的优势。特别是在挑战性任务（如MATH）上，Genius的优势更为明显，比Self-Rewarding方法高出4%以上。
保持一般任务性能稳定性：除了推理密集型任务外，Genius在一般基准测试上也保持了性能的稳定性，并在某些情况下实现了性能提升。特别是在ArenaHard基准测试上，Genius取得了巨大的性能增益，这反映了其与人类偏好的高度一致性。

泛化与适应性

泛化到其他LLMs：实验还验证了Genius在不同LLMs上的泛化能力。在Qwen2.5-3B-Instruct和Qwen2.5-7B-Instruct模型上，Genius同样取得了显著的性能提升。
适应挑战性任务：虽然Genius不是针对训练大型推理模型（如DeepSeek-R1）而设计的，但在AIME 2024竞赛级任务上的实验结果表明，Genius也能够提升这些模型在复杂场景下的性能。

训练后扩展定律

实验还探索了Genius的训练后扩展定律。结果表明，Genius具有巨大的扩展潜力，其性能随着训练步骤的增加而平稳提升，远未达到饱和点。