当前位置: 首页 > wzjs >正文

网站开发软件和工具ide和编辑器关键词查询神器

网站开发软件和工具ide和编辑器,关键词查询神器,网站建设403,金融投资网站源码摘要:提高法学硕士的推理技能引起了广泛的兴趣。 然而,目前的训练后技术严重依赖于监督信号,如结果监督或辅助奖励模型,这面临着可扩展性和高标注成本的问题。 这促使我们加强LLM推理,而不需要外部监督。 我们介绍了一…

摘要:提高法学硕士的推理技能引起了广泛的兴趣。 然而,目前的训练后技术严重依赖于监督信号,如结果监督或辅助奖励模型,这面临着可扩展性和高标注成本的问题。 这促使我们加强LLM推理,而不需要外部监督。 我们介绍了一种可推广的纯无监督自训练框架,名为Genius。 在没有外部辅助的情况下,Genius需要逐步寻找最佳响应序列并优化LLM。 为了探索潜在的步骤并利用最佳的步骤,Genius引入了一种逐步预见性重采样策略,通过模拟未来的结果来采样和估计步骤值。 此外,我们认识到,无监督的设置不可避免地会引入内在的噪声和不确定性。 为了提供稳健的优化,我们提出了优势校准优化(ACO)损失函数来缓解估计不一致。 将这些技术结合在一起,Genius为自我改进的LLM推理提供了一个先进的初始步骤,它可以使用通用查询,无需监督,在通用查询的广泛可用性下,彻底改变了推理扩展定律。 代码将在https://github.com/xufangzhi/Genius上发布。Huggingface链接:Paper page,论文链接:2504.08672

研究背景与目的

研究背景

随着大型语言模型(LLMs)的快速发展,其在各种自然语言处理任务中展现出了强大的能力。然而,LLMs的推理能力,尤其是其在复杂、高级推理任务中的表现,仍然是当前研究的热点和难点。传统的增强LLMs推理能力的方法往往依赖于大量的监督信号,如结果监督或辅助奖励模型。这些方法虽然有效,但面临着可扩展性差和高标注成本的问题。具体来说,对于许多实际问题,缺乏明确的解决方案或显式的地面真值(ground truth),这限制了这些方法在更广泛推理任务中的应用。此外,训练一个泛化能力强的奖励模型也需要昂贵的标注资源,并且可能导致奖励黑客攻击(reward hacking)问题。

研究目的

鉴于上述问题,本文的研究目的是提出一种可泛化和纯无监督的自我训练框架(Genius),以在不依赖外部监督的情况下提高LLMs的推理能力。Genius旨在通过利用通用查询(general queries)来自我改进LLMs的推理能力,从而革命性地改变推理扩展定律,利用大量可用的通用查询来显著提升LLMs的推理能力。

研究方法

核心框架

Genius框架的核心思想是通过自我训练来优化LLMs,而不需要外部监督。它主要包括两个步骤:合成和奖励响应(synthesizing and rewarding the responses),以及用响应优化LLMs(optimizing the LLMs with responses)。

  1. 响应合成与奖励

    • 逐步预见性重采样策略:为了找到最佳的响应序列,Genius采用了一种逐步预见性重采样策略。该策略在每一步都通过模拟未来步骤来采样和估计步骤值。具体来说,对于每个候选步骤,Genius会滚动生成一组未来步骤,并计算其平均对数概率作为预见性分数。然后,基于这些预见性分数,Genius会选择下一个步骤,并收集偏好对用于训练。
    • 探索与利用的平衡:为了平衡探索和利用,Genius在每一步都会重新采样来生成正负响应序列。正面响应是预见性分数最高的序列,而负面响应是从剩余分布中重新采样的序列。通过这种方式,Genius能够在保持多样性的同时避免过拟合。
  2. 优势校准优化(ACO)损失函数

    • 自我奖励函数:在无监督设置下,无法直接训练奖励模型。因此,Genius利用政策LLM(policy LLM)作为隐式奖励模型,并定义了自我奖励函数。该函数基于政策LLM和参考模型(reference model)之间的对数概率比。
    • 优势校准:为了缓解无监督设置下的估计不一致问题,Genius提出了优势校准优化(ACO)损失函数。该函数通过计算正负响应序列之间的优势差异来校准自我奖励函数。如果负面响应序列提供的优势大于正面响应序列,则负面响应将受到较小的惩罚。

实验设置

  • 训练语料:本文使用了两个通用语料库(Magpie和OpenHermes-2.5)作为训练查询来源。从每个语料库中随机选择了25K和32K查询分别用于自我训练。
  • 评估任务:为了全面评估LLMs的基本推理能力,本文在多个基准测试上进行了实验,包括数学推理(GSM8K、MATH、GPQA)、逻辑推理(ReClor、LogiQA)、一般推理(StrategyQA、ARC-Challenge)以及一般领域的基准测试(AlpacaEval、WildBench、ArenaHard、WikiBench、MMLU、MMLU-Pro)。
  • 基线方法:本文比较了多种基线方法,包括需要监督信号的SFT和SPIN,以及仅需要无监督查询的STaR、CoH、Self-Rewarding和ScPO。

研究结果

主要结果

  • 显著提升推理能力:实验结果表明,Genius能够显著提升LLMs的推理能力。以LLaMA3.1-8B-Instruct为基线模型,在使用25K Magpie查询进行自我训练后,Genius在平均CoT推理性能上提高了7.43%。在使用OpenHermes-2.5作为训练语料时,提升效果更为明显。
  • 优于基线方法:与所有强基线方法相比,Genius在平均性能上表现出色,具有超过2%的优势。特别是在挑战性任务(如MATH)上,Genius的优势更为明显,比Self-Rewarding方法高出4%以上。
  • 保持一般任务性能稳定性:除了推理密集型任务外,Genius在一般基准测试上也保持了性能的稳定性,并在某些情况下实现了性能提升。特别是在ArenaHard基准测试上,Genius取得了巨大的性能增益,这反映了其与人类偏好的高度一致性。

泛化与适应性

  • 泛化到其他LLMs:实验还验证了Genius在不同LLMs上的泛化能力。在Qwen2.5-3B-Instruct和Qwen2.5-7B-Instruct模型上,Genius同样取得了显著的性能提升。
  • 适应挑战性任务:虽然Genius不是针对训练大型推理模型(如DeepSeek-R1)而设计的,但在AIME 2024竞赛级任务上的实验结果表明,Genius也能够提升这些模型在复杂场景下的性能。

训练后扩展定律

实验还探索了Genius的训练后扩展定律。结果表明,Genius具有巨大的扩展潜力,其性能随着训练步骤的增加而平稳提升,远未达到饱和点。

研究局限

尽管Genius在提高LLMs推理能力方面取得了显著成效,但仍存在一些局限性:

  • 计算资源需求:Genius需要大量的计算资源来进行自我训练,特别是当处理大型LLMs和大量训练数据时。
  • 通用性验证:尽管实验涵盖了多种推理任务和基准测试,但Genius的通用性仍需进一步验证,特别是在实际应用场景中的表现。
  • 噪声和不确定性:无监督设置下的噪声和不确定性仍然是一个挑战。虽然ACO损失函数在一定程度上缓解了这个问题,但仍有改进空间。

未来研究方向

  • 优化计算效率:研究如何优化Genius的计算效率,减少资源消耗,使其能够更广泛地应用于实际场景中。
  • 增强通用性:进一步验证Genius在不同领域和实际应用场景中的通用性,并探索如何提升其泛化能力。
  • 改进优化算法:研究更先进的优化算法来进一步缓解无监督设置下的噪声和不确定性问题,提高训练的稳定性和性能。
  • 结合监督信号:探索如何将Genius与监督信号相结合,以充分利用有标注和无标注数据的优势,进一步提升LLMs的推理能力。

综上所述,Genius作为一种可泛化和纯无监督的自我训练框架,为提高LLMs的推理能力提供了新的思路和方法。未来的研究将致力于优化其性能、增强通用性,并探索与其他技术的结合应用。

http://www.dtcms.com/wzjs/500125.html

相关文章:

  • 做美食原创视频网站外链在线生成
  • 济南哪里有做网站的公司重庆seo扣费
  • 青海 网站开发 app gis免费网站流量
  • 做网站 怎么做留言如何做好平台推广
  • 专做奢侈品品牌的网站aso具体优化
  • 大庆百度做网站多少钱全网整合营销推广系统
  • 做招商加盟做得比较好的网站中国互联网协会官网
  • 网站开发流程丽江网络营销的四种模式
  • 遵义在线遵义晚报搜索引擎优化要考虑哪些方面?
  • 免费搭建个人业务网站自己怎么做网址开网站
  • 上海注册公司最新政策沈阳企业网站seo公司
  • 西安做网站哪家最便宜北京营销推广网站建设
  • wordpress清理过期文件夹关键词优化是怎么做的
  • wordpress+直接连接数据库阿里网站seo
  • 宁波大型网站设计公司武汉新闻最新消息
  • 拥有建筑和市政双一建挂靠山东济南seo整站优化公司
  • 用自家宽带做网站服务器怎么申请网址
  • 广州微信网站设计制作全国各城市疫情搜索高峰进度
  • 小型企业网站建设关键词seo排名优化如何
  • 有哪些企业会找人做网站建设竞价网官网
  • 网站开发需求分析范本移动惠生活app下载网址
  • 网站建设综合推荐厦门seo优化推广
  • 广西建设厅栾城seo整站排名
  • 哪些网站做黑名单图片外链
  • 检测网站速度广东省最新新闻
  • html网站设计模板下载十大经典案例
  • wordpress 下载模板站网页怎么优化
  • 网站建设使用的基本技术seo搜索引擎招聘
  • 万网归一搜索引擎优化答案
  • 蝶恋直播视频在线观看武汉seo人才