当前位置: 首页 > wzjs >正文

云南网站开发公司推荐游戏推广接单平台

云南网站开发公司推荐,游戏推广接单平台,大都会是什么软件,网站开发开发论文标题 Collab: Controlled Decoding using Mixture of Agents for LLM Alignment 论文地址 https://arxiv.org/pdf/2503.21720 作者背景 JP摩根,马里兰大学帕克分校,普林斯顿大学 动机 大模型对齐(alignment)的主要目的…

论文标题

Collab: Controlled Decoding using Mixture of Agents for LLM Alignment

论文地址

https://arxiv.org/pdf/2503.21720

作者背景

JP摩根,马里兰大学帕克分校,普林斯顿大学

动机

大模型对齐(alignment)的主要目的是让模型输出更符合人类偏好或者业务需要,当前实现对齐的主流方案是RLHF,但不管是何种具体的实现都需要准备充足的训练数据,来训练调整模型参数,计算成本较大;

在高度专业化或者需要快速定制化的场景中,一般需要更轻量级的方法来实现业务对齐。此时不需要修改模型的受控解码便成为了更有前景的替代方案,它直接在推理阶段对模型的解码行为进行控制,以实现与目标偏好的对齐 。

相关研究表明,受控解码可以显著提高LLM满足特定需求的能力,甚至在某些场景下超过PPO/DPO(https://arxiv.org/pdf/2402.01694)

然而,现有受控解码方法大都针对于单一智能体,这在面对当下越来越多样化、可能有冲突的对齐需求时显得力不从心。例如,一方面我们可能希望模型叙事更严谨,另一方面又希望模型具有丰富的创造性;

尽管有些工作探索了集成多个智能体来应对上述挑战,但现有方法都依赖于弱监督或固定的公式来混合模型输出,缺乏灵活性并且可能需要额外的训练。

于是本文希望在不进行重新训练的情况下,设计一种推理时的动态解码机制,集成多个预训练好的LLMs,以实现最优的对齐效果

本文方法

作者提出Collab(基于混合agent的受控解码,Controlled decoding via mixture of agents),可以在token级别上动态选择最适合当前上下文的智能体来生成下一个词,这里的“智能体”指的就是已经预训练好,并且在特定任务或偏好上做了对齐的LLMs,如下图所示:

在这里插入图片描述

在token级别上选择合适的智能体,是一种奖励信号后置任务,可以使用Q-Learning等强化学习算法来解。为了实现上述“不重新训练”便恰当集成多个智能体的目标,作者从带KL正则项的强化学习(就是一般的RLHF)目标出发,尝试寻找出一个能够利用已知信息来近似Q函数的方法;

先说结论,作者找到的近似方法为:

在这里插入图片描述

其中,Q(s, a)是在上下文状态为s的情况下,候选智能体π_j输出a的奖励期望;π_ref是参考模型,集成的结果不会过于偏离它。也就是说,Collab把【每个候选模型本身的输出概率分布,与参考模型分布的对数差】作为价值估计。更通俗地讲:相比于标准答案,每个“专家”提出的意见便是我们去咨询这个专家所获得的收益

获取到Q函数的估计结果后,便可以通过以下流程实现多LLMs的集成式解码:

  1. 在每个时间步,从每个模型中采样出top_p个token,使用预估的Q函数计算其奖励预期,
  2. 选择Q值最高的token作为当前解码结果,加入到上下文中,作为下一步解码的环境状态
  3. 重复上述过程,知道生成完整的响应

推导过程

一、近似Q函数推导

本节展示上述Q函数的估计过程,以及作者对其误差的估计。首先把问题建模为带KL正则项的强化学习:

在这里插入图片描述

其中参考模型使用的是Zephyr-7B-α、Starling-7B-α 等已经在通用文本任务上进行监督微调或RLHF的开源模型;

然后基于概率归一化条件(ΣΠ(a|s)=1),构造拉格朗日函数:

在这里插入图片描述

对策略概率Π(a|s)求偏导并令其为0,达到极值条件:

在这里插入图片描述

整理得到:

在这里插入图片描述

两边取指数:

在这里插入图片描述

上面等式在Π(s, a)到达极小值时成立,即最优的策略模型,记为Π*;再把与a无关的项看成常数C,则可以解出最优Q函数:

在这里插入图片描述

于是我们就找到了策略模型Π与价值函数Q的对应关系。但此时最优策略模型Π*是未知的,作者直接使用当前智能体Πj来代替Π*

在这里插入图片描述

二、误差估计

使用当前候选智能体模型的分布Πj代替最优分布Π*带来了误差,具体可表示为:

在这里插入图片描述

带入之前推导出来的Q与Π对应关系:

在这里插入图片描述

根据pinsker不等式与KL散度的定义,可推出:

在这里插入图片描述

其中C’为某个有限的常数。也就是说,本文的Q函数估计方法,误差是有界的。如果Π*与Πj的差距不大,则估计的Q与最优的Q也很相近。
也就是说,如果我们的候选智能体本身都比较优秀、都经过了充分的训练与对齐,与目标策略差距不大(本文的动机确实也只是想结合不同的模型避免产生冲突),使用上述对数差来估计路由智能体的奖励是可靠的

实验结果

作者使用了市面上各种开源的,已经完成对齐训练的模型作为实验对象,在多轮对话与道德对齐数据集上进行测试,具体的实验设置如下:

在这里插入图片描述

  • Berkeley Nectar:多轮对话和问答数据集
  • HH-RLHF:数据集对齐数据集

使用GPT-4作为裁判,本文提出的CoLLAB方法相较于对照组(参考上表)以及BoN采样的胜率:

在这里插入图片描述

各对照组(参考上表)与实验组,在测试任务上的奖励分数对比:

在这里插入图片描述

多样性与连贯性对比:

在这里插入图片描述

集成的智能体多样性越强效果越好:

在这里插入图片描述

http://www.dtcms.com/wzjs/301870.html

相关文章:

  • 自己架设的传奇怎么做网站云seo
  • 网站制作导航超链接怎么做seo入门书籍
  • 网站内容优化的重要性佛山seo整站优化
  • 网站图怎么做会高清培训机构专业
  • 网站后台图片编辑器我要安装百度
  • 网站开发有哪些方向不受国内限制的搜索引擎
  • 给我一个网站bili免费域名解析
  • wordpress生成tags页面爱站网seo工具包
  • 赣州网页设计师培训站长之家seo信息
  • 同江佳木斯网站建设搜索引擎关键词排名优化
  • 怎么申请一个商城网站.百度搜索 手机
  • 手机表格制作app同仁seo排名优化培训
  • 做普通网站公司吗百度新闻首页
  • 电子商务网站开发与设计怎么创作自己的网站
  • wordpress影视站主题如何在网站上推广自己的产品
  • 沈阳做网站哪家便宜南宁seo服务优化
  • 淮安网站建设站长之家关键词挖掘工具
  • 怎么用手机黑网站济南seo全网营销
  • 可信网站认证有用吗神马快速排名优化工具
  • 到哪里做网站网络营销的方式
  • 日本女做受视频网站百度热议
  • 聊城网站建设信息品牌营销包括哪些内容
  • 东莞网站制作公司网络营销策划的概念
  • 快捷建站专家网络推广图片大全
  • 域客士营销型单页网站程企业建站免费模板
  • 做网站设计最好的公司怎么注册一个自己的网址
  • 长春企业网站设计优化设计四年级上册语文答案
  • 宁波网站建设怎么做无排名优化
  • 大足网站建设公司想做网络推广贵不
  • 男女做的那些事情的网站整合营销传播的定义