当前位置: 首页 > news >正文

【AI论文】Genius:一种用于高级推理的可泛化和纯无监督的自我训练框架

摘要:提高法学硕士的推理技能引起了广泛的兴趣。 然而,目前的训练后技术严重依赖于监督信号,如结果监督或辅助奖励模型,这面临着可扩展性和高标注成本的问题。 这促使我们加强LLM推理,而不需要外部监督。 我们介绍了一种可推广的纯无监督自训练框架,名为Genius。 在没有外部辅助的情况下,Genius需要逐步寻找最佳响应序列并优化LLM。 为了探索潜在的步骤并利用最佳的步骤,Genius引入了一种逐步预见性重采样策略,通过模拟未来的结果来采样和估计步骤值。 此外,我们认识到,无监督的设置不可避免地会引入内在的噪声和不确定性。 为了提供稳健的优化,我们提出了优势校准优化(ACO)损失函数来缓解估计不一致。 将这些技术结合在一起,Genius为自我改进的LLM推理提供了一个先进的初始步骤,它可以使用通用查询,无需监督,在通用查询的广泛可用性下,彻底改变了推理扩展定律。 代码将在https://github.com/xufangzhi/Genius上发布。Huggingface链接:Paper page,论文链接:2504.08672

研究背景与目的

研究背景

随着大型语言模型(LLMs)的快速发展,其在各种自然语言处理任务中展现出了强大的能力。然而,LLMs的推理能力,尤其是其在复杂、高级推理任务中的表现,仍然是当前研究的热点和难点。传统的增强LLMs推理能力的方法往往依赖于大量的监督信号,如结果监督或辅助奖励模型。这些方法虽然有效,但面临着可扩展性差和高标注成本的问题。具体来说,对于许多实际问题,缺乏明确的解决方案或显式的地面真值(ground truth),这限制了这些方法在更广泛推理任务中的应用。此外,训练一个泛化能力强的奖励模型也需要昂贵的标注资源,并且可能导致奖励黑客攻击(reward hacking)问题。

研究目的

鉴于上述问题,本文的研究目的是提出一种可泛化和纯无监督的自我训练框架(Genius),以在不依赖外部监督的情况下提高LLMs的推理能力。Genius旨在通过利用通用查询(general queries)来自我改进LLMs的推理能力,从而革命性地改变推理扩展定律,利用大量可用的通用查询来显著提升LLMs的推理能力。

研究方法

核心框架

Genius框架的核心思想是通过自我训练来优化LLMs,而不需要外部监督。它主要包括两个步骤:合成和奖励响应(synthesizing and rewarding the responses),以及用响应优化LLMs(optimizing the LLMs with responses)。

  1. 响应合成与奖励

    • 逐步预见性重采样策略:为了找到最佳的响应序列,Genius采用了一种逐步预见性重采样策略。该策略在每一步都通过模拟未来步骤来采样和估计步骤值。具体来说,对于每个候选步骤,Genius会滚动生成一组未来步骤,并计算其平均对数概率作为预见性分数。然后,基于这些预见性分数,Genius会选择下一个步骤,并收集偏好对用于训练。
    • 探索与利用的平衡:为了平衡探索和利用,Genius在每一步都会重新采样来生成正负响应序列。正面响应是预见性分数最高的序列,而负面响应是从剩余分布中重新采样的序列。通过这种方式,Genius能够在保持多样性的同时避免过拟合。
  2. 优势校准优化(ACO)损失函数

    • 自我奖励函数:在无监督设置下,无法直接训练奖励模型。因此,Genius利用政策LLM(policy LLM)作为隐式奖励模型,并定义了自我奖励函数。该函数基于政策LLM和参考模型(reference model)之间的对数概率比。
    • 优势校准:为了缓解无监督设置下的估计不一致问题,Genius提出了优势校准优化(ACO)损失函数。该函数通过计算正负响应序列之间的优势差异来校准自我奖励函数。如果负面响应序列提供的优势大于正面响应序列,则负面响应将受到较小的惩罚。

实验设置

  • 训练语料:本文使用了两个通用语料库(Magpie和OpenHermes-2.5)作为训练查询来源。从每个语料库中随机选择了25K和32K查询分别用于自我训练。
  • 评估任务:为了全面评估LLMs的基本推理能力,本文在多个基准测试上进行了实验,包括数学推理(GSM8K、MATH、GPQA)、逻辑推理(ReClor、LogiQA)、一般推理(StrategyQA、ARC-Challenge)以及一般领域的基准测试(AlpacaEval、WildBench、ArenaHard、WikiBench、MMLU、MMLU-Pro)。
  • 基线方法:本文比较了多种基线方法,包括需要监督信号的SFT和SPIN,以及仅需要无监督查询的STaR、CoH、Self-Rewarding和ScPO。

研究结果

主要结果

  • 显著提升推理能力:实验结果表明,Genius能够显著提升LLMs的推理能力。以LLaMA3.1-8B-Instruct为基线模型,在使用25K Magpie查询进行自我训练后,Genius在平均CoT推理性能上提高了7.43%。在使用OpenHermes-2.5作为训练语料时,提升效果更为明显。
  • 优于基线方法:与所有强基线方法相比,Genius在平均性能上表现出色,具有超过2%的优势。特别是在挑战性任务(如MATH)上,Genius的优势更为明显,比Self-Rewarding方法高出4%以上。
  • 保持一般任务性能稳定性:除了推理密集型任务外,Genius在一般基准测试上也保持了性能的稳定性,并在某些情况下实现了性能提升。特别是在ArenaHard基准测试上,Genius取得了巨大的性能增益,这反映了其与人类偏好的高度一致性。

泛化与适应性

  • 泛化到其他LLMs:实验还验证了Genius在不同LLMs上的泛化能力。在Qwen2.5-3B-Instruct和Qwen2.5-7B-Instruct模型上,Genius同样取得了显著的性能提升。
  • 适应挑战性任务:虽然Genius不是针对训练大型推理模型(如DeepSeek-R1)而设计的,但在AIME 2024竞赛级任务上的实验结果表明,Genius也能够提升这些模型在复杂场景下的性能。

训练后扩展定律

实验还探索了Genius的训练后扩展定律。结果表明,Genius具有巨大的扩展潜力,其性能随着训练步骤的增加而平稳提升,远未达到饱和点。

研究局限

尽管Genius在提高LLMs推理能力方面取得了显著成效,但仍存在一些局限性:

  • 计算资源需求:Genius需要大量的计算资源来进行自我训练,特别是当处理大型LLMs和大量训练数据时。
  • 通用性验证:尽管实验涵盖了多种推理任务和基准测试,但Genius的通用性仍需进一步验证,特别是在实际应用场景中的表现。
  • 噪声和不确定性:无监督设置下的噪声和不确定性仍然是一个挑战。虽然ACO损失函数在一定程度上缓解了这个问题,但仍有改进空间。

未来研究方向

  • 优化计算效率:研究如何优化Genius的计算效率,减少资源消耗,使其能够更广泛地应用于实际场景中。
  • 增强通用性:进一步验证Genius在不同领域和实际应用场景中的通用性,并探索如何提升其泛化能力。
  • 改进优化算法:研究更先进的优化算法来进一步缓解无监督设置下的噪声和不确定性问题,提高训练的稳定性和性能。
  • 结合监督信号:探索如何将Genius与监督信号相结合,以充分利用有标注和无标注数据的优势,进一步提升LLMs的推理能力。

综上所述,Genius作为一种可泛化和纯无监督的自我训练框架,为提高LLMs的推理能力提供了新的思路和方法。未来的研究将致力于优化其性能、增强通用性,并探索与其他技术的结合应用。

相关文章:

  • 使用FastAPI构建高效、优雅的RESTful API
  • 基于ssh密钥访问远程Linux
  • AI 数字短视频数字人源码开发的多元价值与深远意义​
  • 网络417 路由转发2 防火墙
  • 常见的VLAN划分方式和示例场景
  • [250417] Fedora 42 正式发布,搭载 Linux 6.14 内核和 GNOME 48 桌面环境
  • 扫雷-C语言版
  • 使用Qt multimedia模块实现简易的视频播放器
  • stm32-lm75、SPI
  • Jenkins 2.492.2 LTS 重置管理员密码
  • 科研新触角:松灵六轴臂重构具身智能生态
  • 在Ubuntu服务器上部署xinference
  • python入门:不同进制数据的表示方式,转换;数据类型的转换,隐式类型的转换
  • ServletRequestListener 的用法笔记250417
  • 日语学习-日语知识点小记-构建基础-JLPT-N4阶段(6):ながら 一边。。一边
  • NVIDIA 显卡
  • Python基础总结(六)之集合
  • 《如何用 Function 实现动态配置驱动的处理器注册机制?》
  • 多重背包转01背包优化
  • Linux:进程:进程状态
  • 山西太原一小区发生爆炸,造成1人遇难21人受伤2人失联
  • 阿里千问3系列发布并开源:称成本大幅下降,性能超越DeepSeek-R1
  • 葡萄牙、西班牙发生大范围停电
  • 周口一乡镇公务员“被老赖”,两年4场官司均败诉,市监局将线索移送公安厅
  • 野猪穿过江苏电视台楼前广场,被抓捕后送往红山森林动物园
  • 观察|上海算力生态蓬勃发展,如何助力千行百业数智化转型升级