大型语言模型个性化助手实现
大型语言模型个性化助手实现
目录
- 大型语言模型个性化助手实现
- PERSONAMEM,以及用户资料和对话模拟管道
- 7种原位用户查询类型
- 关于大语言模型个性化能力评估的研究
大型语言模型(LLMs)已经成为用户在各种任务中的个性化助手,从提供写作支持到提供量身定制的建议或咨询。随着时间的推移,用户和LLM之间的交互历史可以提供有关个人特征和偏好的广泛信息。
然而,关于当今LLM如何有效地利用这些历史来(1)内化用户的固有特征和偏好,(2)跟踪用户分析和偏好如何随时间演变,以及(3)在新场景中相应地生成个性化响应,仍然存在悬而未决的问题。
在这项工作中,我们介绍了PERSONMEM基准。PERSONMEM具有精心策划的用户配置文件,其中包含180多个模拟用户LLM交互历史,每个历史包含多达60个会话,涉及15个需要个性化的现实世界任务。
给定一个现场用户查询,即用户从第一人称角度发出的查询,我们评估LLM聊天机器人根据用户个人资料的当前状态识别最合适响应的能力。
我们观察到,当前的LLM仍然难以通过直接提示方法识别用户资料随时间的动态演变。因此,LLM通常无法提供与用户当前情况和偏好相一致的响应,GPT-4.1、o4-mini、GPT-4.5、o1或Gemini-2.0等前沿模型的总体准确率仅为50%左右,这表明还有改进的空间。我们希望PERSONAMEM,以及用户资料和对话模拟管道&