当前位置: 首页 > news >正文

【RL】KTO: Model Alignment as Prospect Theoretic Optimization

note

  • 提出了一种新的对齐方法KTO,该方法通过直接最大化生成内容的效用,匹配或超过了基于偏好的对齐方法。研究表明,最佳的对齐损失函数取决于具体场景的归纳偏差,而非单一损失函数的普适性。KTO方法在数据收集和处理上具有显著优势,有望在实际应用中推广。

文章目录

  • note
  • 一、研究背景
  • 二、研究方法
  • 三、实验设计
  • 四、结果与分析
  • 五、论文评价
    • 1、优点与创新
    • 2、不足与反思
  • 六、相关问题
    • 问题1:KTO方法如何在实验中表现出优于DPO的性能?
    • 问题2:KTO方法的理论基础是什么?
    • 问题3:KTO方法在实际应用中有哪些潜在优势?
  • Reference

一、研究背景

研究问题:这篇文章要解决的问题是如何更好地对齐大型语言模型(LLMs)与人类反馈,以提高生成内容的有用性、事实性和伦理性。
研究难点:该问题的研究难点包括:人类反馈通常以偏好形式出现,而偏好数据稀缺且昂贵;现有的对齐方法在处理大规模模型时存在性能和稳定性问题。
相关工作:该问题的研究相关工作有:RLHF、DPO等基于偏好的对齐方法,以及条件SFT、序列似然校准等非基于偏好的对齐方法。

二、研究方法

这篇论文提出了一种新的对齐方法,称为Kahneman-Tversky优化(KTO),用于解决LLMs与人类反馈对齐的问题。具体来说,

  • 前景理论视角:首先,论文通过前景理论解释了现有对齐方法成功的原因,指出这些方法隐含地模型化了人类决策中的偏差,如损失厌恶。
  • 人类感知损失函数(HALOs):论文定义了一类新的损失函数,称为人类感知损失函数(HALOs),这些损失函数直接最大化生成内容的效用,而不是偏好对数似然。
  • Kahneman-Tversky优化(KTO):论文提出了KTO方法,该方法使用Kahneman和Tversky的前景理论模型来直接最大化生成内容的效用。KTO方法只需要一个二进制信号,即输出是否可取,这使得数据收集更便宜、更快。

在这里插入图片描述

  • KTO(Kahneman-Tversky Optimization)方法的数学公式如下:

核心损失函数:

LKTO(πθ,πref)=E(x,y)∼D[λy−v(x,y)]L_{\text{KTO}}(\pi_{\theta}, \pi_{ref}) = \mathbb{E}_{(x, y) \sim D} \left[ \lambda_y - v(x, y) \right] LKTO(πθ,πref)=E(x,y)D[λyv(x,y)]

其中:

  • rθ(x,y)r_{\theta}(x,y)rθ(x,y):策略模型的相对对数概率比
    rθ(x,y)=log⁡πθ(y∣x)πref(y∣x)r_{\theta}(x,y) = \log \frac{\pi_{\theta}(y|x)}{\pi_{ref}(y|x)} rθ(x,y)=logπref(yx)πθ(yx)

  • z0z_{0}z0:策略模型与参考模型之间的KL散度
    z0=KL(πθ(y′∣x)∥πref(y′∣x))z_{0} = \text{KL}(\pi_{\theta}(y^{\prime}|x) \| \pi_{ref}(y^{\prime}|x)) z0=KL(πθ(yx)πref(yx))

  • v(x,y)v(x,y)v(x,y):基于Kahneman-Tversky前景理论的价值函数

三、实验设计

论文在多个模型家族上进行了实验,包括Pythia和Llama系列模型。实验设计包括以下几个方面:
数据集:实验使用了Anthropic-HH、OpenAssistant和SHP等多个数据集进行预训练和微调。
模型对比:实验对比了SFT、DPO、ORPO、KTO等方法在不同模型规模下的性能。
评估指标:使用GPT-4-0613对对齐模型的响应进行评价,评估指标包括有帮助性、无害性和简洁性。

四、结果与分析

  • HALOs的性能:HALOs在每一个模型规模上都匹配或超过了非HALOs的性能,尤其是在13B以上的模型中,差异显著。

在这里插入图片描述

  • KTO的优势:KTO在7B、13B和30B模型上均优于DPO,且在某些任务上表现尤为突出,如在GSM8K数据集上,KTO相较于DPO提升了13.5个百分点。
  • 数据不平衡性:KTO能够处理极端的数据不平衡,使用高达90%的少期望示例仍能匹配DPO的性能。
  • 无需SFT:在足够大的模型上,KTO可以直接跳过SFT阶段,而不会影响生成质量。

五、论文评价

1、优点与创新

提出了一种新的对齐方法:论文提出了Kahneman-Tversky Optimization (KTO),该方法直接最大化生成物的效用,而不是像现有方法那样最大化偏好的对数似然。
数据效率更高:KTO只需要一个二进制信号(输出是否可取),这种数据在现实世界中更容易收集,成本更低,速度更快。
在多种规模上表现优异:KTO在1B到30B参数规模上匹配或超过了基于偏好的方法(如DPO)的性能。
处理极端数据不平衡的能力:KTO在使用高达90%更少可取示例的情况下,仍然能够匹配DPO的性能。
跳过监督微调的可能性:当预训练模型足够好时,可以直接使用KTO而无需监督微调,这在DPO中总是需要的。
理论解释:论文提供了理论解释,说明为什么KTO在某些情况下比DPO表现更好,特别是在处理噪声和不一致反馈时。

2、不足与反思

没有一种通用的HALO:论文指出,没有一种HALO是普遍优越的,最佳HALO取决于特定设置的最适合归纳偏差,这一选择应该是有意为之,而不是默认选择任何一种损失函数。
反馈数据的代表性问题:使用的反馈数据(如SHP、HH、OASST)可能不具代表性,可能会导致模型对齐到不具代表性的子集,从而阻碍其他人群同等受益。
未来工作方向:包括开发能够处理更细粒度反馈的HALO、适用于其他模态和模型类的HALO、能够根据不同的公平性定义解决反馈矛盾的HALO,以及设计用于在线数据的HALO。
生态有效评估:需要在实际环境中部署对齐模型,以评估不同HALO的优点,这是未来工作的一个重要方向。

六、相关问题

问题1:KTO方法如何在实验中表现出优于DPO的性能?

KTO方法在实验中表现出优于DPO的性能主要有以下几个原因:
数据效率:KTO方法只需要一个二进制信号(输出是否可取),这使得数据收集更便宜、更快。相比之下,DPO依赖于偏好数据,这些数据通常稀缺且昂贵。
处理极端数据不平衡的能力:KTO能够处理极端的数据不平衡,使用高达90%的少期望示例仍能匹配DPO的性能。而DPO在处理数据不平衡时可能会遇到困难。
无需SFT:在足够大的模型上,KTO可以直接跳过SFT阶段,而不会影响生成质量。而DPO通常需要SFT来达到最佳性能。
理论优势:KTO方法通过直接最大化生成内容的效用,而不是偏好对数似然,能够更好地反映人类的决策偏差,如损失厌恶。

问题2:KTO方法的理论基础是什么?

KTO方法的理论基础是Kahneman和Tversky的前景理论。前景理论解释了人类在不确定事件中的决策行为,指出人类决策中存在损失厌恶、风险厌恶等偏差。KTO方法通过以下方式利用前景理论:

价值函数:KTO使用Kahneman和Tversky的价值函数来衡量生成内容的效用。该函数在相对损失区域比相对增益区域更敏感,反映了人类的损失厌恶特性。
加权函数:虽然KTO主要关注价值函数,但加权函数也在一定程度上影响了模型的决策。KTO通过引入参考点来控制模型的决策行为。

KTO(Kahneman-Tversky Optimization)方法的数学公式如下:

核心损失函数:

LKTO(πθ,πref)=E(x,y)∼D[λy−v(x,y)]L_{\text{KTO}}(\pi_{\theta}, \pi_{ref}) = \mathbb{E}_{(x, y) \sim D} \left[ \lambda_y - v(x, y) \right] LKTO(πθ,πref)=E(x,y)D[λyv(x,y)]

其中:

  • rθ(x,y)r_{\theta}(x,y)rθ(x,y):策略模型的相对对数概率比
    rθ(x,y)=log⁡πθ(y∣x)πref(y∣x)r_{\theta}(x,y) = \log \frac{\pi_{\theta}(y|x)}{\pi_{ref}(y|x)} rθ(x,y)=logπref(yx)πθ(yx)

  • z0z_{0}z0:策略模型与参考模型之间的KL散度
    z0=KL(πθ(y′∣x)∥πref(y′∣x))z_{0} = \text{KL}(\pi_{\theta}(y^{\prime}|x) \| \pi_{ref}(y^{\prime}|x)) z0=KL(πθ(yx)πref(yx))

  • v(x,y)v(x,y)v(x,y):基于Kahneman-Tversky前景理论的价值函数

问题3:KTO方法在实际应用中有哪些潜在优势?

数据收集更容易:KTO方法只需要一个二进制信号(输出是否可取),这使得数据收集更便宜、更快,特别是在实际应用中,可以更容易地从用户反馈中收集数据。
适应性强:KTO方法不依赖于特定的数据分布,可以适应不同的应用场景和数据类型,具有更强的通用性。
稳定性高:KTO方法在处理极端数据不平衡时表现出色,且不需要复杂的奖励学习过程,因此在实际应用中可能更稳定。
理论支持:KTO方法基于前景理论,能够更好地反映人类的决策偏差,从而在实际应用中可能更有效地对齐模型与人类反馈。

Reference

[1] KTO: Model Alignment as Prospect Theoretic Optimization
[2] https://huggingface.co/docs/trl/main/en/kto_trainer

http://www.dtcms.com/a/619100.html

相关文章:

  • 前端网站开发教程优秀金融网站设计
  • 【TypeScript】事件循环和LibUV简述
  • Java泛型相关知识
  • 嵌入式复习
  • 莆田网站建设创意我的网站设计联盟
  • 东城建站推广做网站很麻烦吗
  • 图神经网络分享系列-GraphSage(Inductive Representation Learning on Large Graphs) (二)
  • 杭州企业建站程序中国镇江网
  • 做网站技术有什么网站可以推广信息
  • 开发做游戏的网站wordpress自定义新页面链接
  • 冬日骑行显格调!维乐Angel Revo坐垫暗藏高级感
  • 建网站有什么要求国外的建筑设计案例网站
  • 郑州免费做网站东三省网站建设公司
  • 网站建设可上传视频的企业建设网站流程图
  • 深入Rust标准库(std):核心能力与实战指南
  • MySQL: MaxScale架构解析与高可用集群部署实战之插件架构·权限配置·读写分离·监控体系
  • 太月星网站建设程序开发简述网站建设的主要步骤
  • Diffusion Model VS TSDiff
  • 网站怎么制作成软件免备案域名
  • 爱用建站下载跨境电商平台有哪些前期费用
  • 利用社交网站做淘宝客酒店网站建设策划书
  • 45_FastMCP 2.x 中文文档之FastMCP集成:Azure (Entra ID) 认证指南
  • 南京定制网站建设怎么收费微商城网站建设资讯
  • Redis错误配置利用-未授权-写webshell公钥计划任务-主从复制
  • 创建网站向导和模板霍山网站建设
  • 8个页面的网站怎么做创意策划是做什么的
  • window.print(),完整用法说明文档,如何打印出样式规范的页面
  • 20.UBOOT
  • 查网站域名备案查询系统一般做门户网站多少钱
  • 卯兔科技西安网站建设google官网入口手机版