当前位置：首页 > news >正文

论文略读：DAILYDILEMMAS:REVEALINGVALUEPREFERENCES OFLLMSWITHQUANDARIESOFDAILYLIFE

news 2025/9/21 12:33:26

ICLR 2025 spotlight 5888

随着用户越来越多地依赖大语言模型（LLMs）来辅助日常生活中的决策，许多决策并非非黑即白，而是高度依赖于个人价值观与道德标准。
为此，论文提出 DailyDilemmas，一个包含 1,360 个现实生活中道德困境的数据集。每个困境都提供两个可能的行动选项，并列出了每个选项涉及的相关方与人类价值观。

基于这些道德困境，我们建立了一个涵盖人际关系、职场、环境问题等多种日常主题的人类价值观语料库。借助 DailyDilemmas，我们评估 LLM 在这些道德困境中会选择哪种行为，以及这些选择所体现的价值倾向。
进一步通过五种理论框架分析这些价值取向，这些框架来自社会学、心理学和哲学，包括：
- 世界价值观调查（World Values Survey）
- 道德基础理论（Moral Foundations Theory）
- 马斯洛需求层次（Maslow's Hierarchy of Needs）
- 亚里士多德美德伦理（Aristotle's Virtues）
- Plutchik 情绪之轮（Plutchik's Wheel of Emotions）
论文呢发现
- LLM 在 World Values Survey 中更倾向于自我表达（self-expression）而非生存需求（survival），在 Moral Foundations Theory 中则更重视关怀（care）而非忠诚（loyalty）。
- 不同模型在某些核心价值上存在显著差异。例如，在**“诚实”**这一价值上，Mixtral-8x7B 表现出忽视的倾向（减少 9.7%），而 GPT-4-turbo 更倾向选择它（增加 9.4%）。
- 终端用户难以通过系统提示（system prompts）有效地引导模型的价值排序，这对模型对齐与用户控制提出了新的挑战。