当前位置：首页 > news >正文

浙大：基于内在偏好的LLM个性化对齐

news 2025/7/1 17:38:54

在这里插入图片描述

📖标题：Persona-judge: Personalized Alignment of Large Language Models via Token-level Self-judgment
🌐来源：arXiv, 2504.12663

🌟摘要

🔸将语言模型与人类偏好对齐会带来重大挑战，特别是在实现个性化而不产生过多的计算成本。现有方法依赖于奖励信号和额外的注释数据，限制了它们对不同人类值的可扩展性和适应性。
🔸为了应对这些挑战，我们引入了 Persona-judge，这是一种新颖的判别范式，可以实现与看不见的偏好的无训练个性化对齐。Persona-judge不是通过外部奖励反馈优化策略参数，而是利用模型的内在偏好判断能力。具体来说，草稿模型生成以给定偏好为条件的候选标记，而法官模型则体现另一个偏好，交叉验证是否接受的预测标记。
🔸实验结果表明，Persona-judge 使用模型的固有偏好评估机制，为个性化对齐提供了一种可扩展且计算效率高的解决方案，为更自适应的定制对齐铺平了道路。

🛎️文章简介

🔸研究问题：大语言模型（LLM）在个性化对齐中对人类偏好的适应性不足。
🔸主要贡献：论文提出了一种名为Persona-judge的方法，通过模型内在的偏好判断能力实现个性化对齐，无需额外的训练或外部反馈。

📝重点思路

🔸论文采用“草稿-评判”管道，其中同一基础模型既作为草稿模型生成候选令牌，又作为评判模型判断候选令牌是否被接受。
🔸通过使用不同的偏好前缀，模型在生成序列时交替扮演草稿和评判的角色，从而计算接受下一个令牌的可能性。
🔸该方法消除了对外部奖励信号的依赖，使得个性化对齐在不需要额外训练的情况下得以实现。

🔎分析总结

🔸实验结果显示，Persona-judge在个性化对齐方面的表现与基于训练的方法相当，但在灵活性和效率上具有明显优势。
🔸Persona-judge在处理多维偏好时，展示了良好的扩展性，能够适应不同的人类偏好而无需重新训练模型。
🔸通过在多种模型和数据集上进行评估，Persona-judge的有效性和可扩展性得到了验证，尤其在面对未见偏好时表现出色。