论文略读:DAILYDILEMMAS:REVEALINGVALUEPREFERENCES OFLLMSWITHQUANDARIESOFDAILYLIFE
ICLR 2025 spotlight 5888
- 随着用户越来越多地依赖大语言模型(LLMs)来辅助日常生活中的决策,许多决策并非非黑即白,而是高度依赖于个人价值观与道德标准。
- 为此,论文提出 DailyDilemmas,一个包含 1,360 个现实生活中道德困境的数据集。每个困境都提供两个可能的行动选项,并列出了每个选项涉及的相关方与人类价值观。
- 基于这些道德困境,我们建立了一个涵盖人际关系、职场、环境问题等多种日常主题的人类价值观语料库。借助 DailyDilemmas,我们评估 LLM 在这些道德困境中会选择哪种行为,以及这些选择所体现的价值倾向。
- 进一步通过五种理论框架分析这些价值取向,这些框架来自社会学、心理学和哲学,包括:
-
世界价值观调查(World Values Survey)
-
道德基础理论(Moral Foundations Theory)
-
马斯洛需求层次(Maslow's Hierarchy of Needs)
-
亚里士多德美德伦理(Aristotle's Virtues)
-
Plutchik 情绪之轮(Plutchik's Wheel of Emotions)
-
- 论文呢发现
- LLM 在 World Values Survey 中更倾向于自我表达(self-expression)而非生存需求(survival),在 Moral Foundations Theory 中则更重视关怀(care)而非忠诚(loyalty)。
- 不同模型在某些核心价值上存在显著差异。例如,在**“诚实”**这一价值上,Mixtral-8x7B 表现出忽视的倾向(减少 9.7%),而 GPT-4-turbo 更倾向选择它(增加 9.4%)。
- 终端用户难以通过系统提示(system prompts)有效地引导模型的价值排序,这对模型对齐与用户控制提出了新的挑战。