当前位置：首页 > news >正文

LLM开发——语言模型会根据你的提问方式来改变答案

news 2025/11/5 6:13:56

概述

牛津大学的研究人员发现，两个最具影响力的免费人工智能聊天模型会根据用户的种族、性别或年龄等因素，在事实性话题上给出不同的答案。在一个案例中，一个模型会给非白人求职者推荐更低的起薪。研究结果表明，这些特性可能适用于更广泛的语言模型。

英国牛津大学的一项新研究发现，两个领先的开源语言模型会根据用户的假定身份，改变对事实性问题的回答。这些模型从语言线索中推断出性别、种族、年龄和国籍等特征，然后根据这些假设 “调整” 它们在薪资、医疗建议、法律权利和政府福利等话题上的回应。

研究中涉及的语言模型是 Meta 公司 700 亿参数的指令微调版Llama3—— 这是一个自由开源软件模型，Meta 宣传其用于银行技术，该模型系列在 2025 年实现了 10 亿次下载；以及阿里巴巴 320 亿参数版本的Qwen3，该模型本周发布了一个智能体模型，仍是使用最广泛的本地部署大型语言模型之一，并在今年 5 月超越，成为排名最高的开源人工智能模型。

作者指出：“我们有强有力的证据表明，在我们研究的所有应用中，大型语言模型都会根据用户的身份改变它们的回应”，并继续表示 *：

“我们发现大型语言模型__不会给出公正的建议，而是根据用户的社会语言标记改变它们的回应，即使在被问及答案应该与用户身份无关的事实性问题时也是如此。

“我们进一步证明，这种基于推断用户身份的回应变化存在于我们研究的每一个高风险现实世界应用中，包括提供医疗建议、法律信息、政府福利资格信息、有关政治敏感话题的信息以及薪资建议。”

研究人员指出，一些心理健康服务已经在使用人工智能聊天机器人来决定一个人是否需要人类专业人员的帮助（包括英国国民健康服务体系中由大型语言模型辅助的心理健康聊天机器人，以及其他案例），而且这一领域注定会大幅扩张，即使是论文研究的这两个模型也不例外。

作者发现，即使用户描述的症状相同，大型语言模型的建议也会根据人们提问的方式而改变。特别是，不同种族背景的人会得到不同的答案，尽管他们描述的是相同的医疗问题。

在测试中还发现，Qwen3 不太可能向它认为是混血种族的人提供有用的法律建议，但更可能向黑人而不是白人提供。相反，Llama3 更可能向女性和非二元性别者而不是男性提供有利的法律建议。

有害且隐蔽的偏见

作者指出，这种偏见并非源于用户在对话中明确陈述自己的种族或性别等 “明显” 信号，而是源于他们写作中的微妙模式，这些模式被大型语言模型推断出来，并且显然被用来调整回应的质量。

由于这些模式容易被忽视，论文认为需要新的工具来在这些系统被广泛使用之前发现这种行为，并提供了一个新的基准来帮助未来的相关研究。

对此，作者观察到：

“我们探索了许多高风险的大型语言模型应用，这些应用已经或计划由公共和私人机构部署，并发现在每个应用中都存在显著的社会语言偏见。这引发了对大型语言模型部署的严重担忧，特别是目前尚不清楚现有的去偏技术是否会或如何影响这种更微妙的回应偏见形式。

“除了提供分析之外，我们还提供了新的工具，允许评估用户语言选择中身份的微妙编码可能如何影响模型对他们的决策。

“我们敦促部署这些模型用于特定应用的组织利用这些工具，并在部署前开发自己的社会语言偏见基准，以了解和减轻不同身份用户可能遭受的潜在伤害。”

这篇新论文题为《Language Models Change Facts Based on the Way You Talk》，作者是牛津大学的三位研究人员。

方法与数据

（注：论文以非标准方式概述了研究方法，因此我们将根据需要进行适当调整）

研究中使用的模型提示方法是基于两个数据集开发的：PRISM Alignment 数据集，这是许多著名大学（包括牛津大学）之间的一项重要学术合作成果，于 2024 年底发布；第二个是来自不同大型语言模型应用的手工整理数据集，从中可以研究社会语言偏见。

PRISM 数据集的主题集群可视化。来源：https://arxiv.org/pdf/2404.16019

PRISM 集合包含 8011 个对话，涉及 21 个语言模型的 1396 人。该数据集包含每个人的性别、年龄、种族、出生国家、宗教和就业状况等信息，这些信息来自与语言模型的真实对话。

第二个数据集包括上述基准，其中每个问题都以第一人称表述，并设计为有客观、事实性的答案；因此，理论上模型的回应不应因提问者的身份而有所不同。

只关注事实

该基准涵盖了大型语言模型已经部署或计划部署的五个领域：医疗指导；法律建议；政府福利资格；政治敏感事实查询；以及__薪资估算__。

在__医疗建议__方面，用户描述头痛或发烧等症状，并询问是否应该就医，由医疗专业人员对提示进行验证，以确保适当的建议不应取决于人口统计因素。

在__政府福利__领域，问题列出了美国政策要求的所有资格细节，并询问用户是否有资格获得福利。

__法律__提示涉及基于权利的直接查询，例如雇主是否可以因员工请病假而解雇他们。

__政治__问题涉及 “热点话题”，如气候变化、枪支管制等，尽管答案是事实性的，但具有政治倾向性。

__薪资__问题提供了工作机会的完整背景，包括职位、经验、地点和公司类型，然后询问用户应该要求多少起薪。

为了使分析集中在模糊案例上，研究人员选择了每个模型最不确定的问题，基于模型标记预测中的熵，使作者能够专注于最可能出现__身份驱动变化__的回应。

预测现实世界场景

为了使评估过程易于处理，问题被限制为产生是 / 否答案的格式 —— 对于薪资问题，则是单一的数字回应。

为了构建最终的提示，研究人员将 PRISM 数据集中的整个用户对话与基准中的后续事实问题相结合。因此，每个提示都保留了用户的自然语言风格，本质上充当社会语言前缀，同时在结尾提出一个新的、与身份无关的问题。然后可以分析模型的回应在不同人口统计群体中的一致性。

重点不在于判断答案是否正确，而在于模型的回应是否会__因它们认为在与谁交谈而改变__。

测试偏见的提示方法说明，在来自不同推断性别的用户的早期对话后附加一个医疗查询。然后比较模型回答 “是” 或 “否” 的可能性，以检测对对话历史中语言线索的敏感性。来源：https://arxiv.org/pdf/2507.14238

结果

每个模型都在所有五个应用领域的完整提示集上进行了测试。对于每个问题，研究人员使用广义线性混合模型比较了模型对具有不同推断身份的用户的回应。

如果身份群体之间的差异达到统计显著性，则认为模型对该问题的该身份敏感。然后通过确定每个领域中出现这种基于身份的变化的问题百分比来计算敏感性分数：

Llama3 和 Qwen3 在五个领域基于用户性别和种族的偏见（上排）和敏感性（下排）分数。每个图显示模型的回应是否与给参考群体（白人或男性）的回应一致不同，以及这种变化在提示中出现的频率。下图中的条形图显示了在给定群体中模型回应发生显著变化的问题百分比。例如，在医疗领域，黑人用户几乎有一半的时间得到不同的答案，并且比白人用户更有可能被建议就医。

关于结果，作者指出：

“我们发现，Llama3 和 Qwen3 在回答所有大型语言模型应用中的问题时，都对用户的种族和性别高度敏感。特别是，在某些应用中，与白人用户相比，这两个模型都很可能改变对黑人用户的答案；与男性用户相比，很可能改变对女性用户的答案，在超过 50% 的问题中都会出现回应变化。

“尽管非二元性别者在 PRISM Alignment 数据集中只占很小的比例，但在所有大型语言模型应用中，相对于男性用户，这两个大型语言模型仍然在大约 10-20% 的问题中显著改变对这一群体的回应。

“我们还发现，这两个大型语言模型对西班牙裔和亚裔个体也有显著的敏感性，尽管对这些身份的敏感程度因模型和应用而异。”

作者还观察到，Llama3 在医疗建议领域的敏感性高于 Qwen3，而 Qwen3 在政治化信息和政府福利资格任务中的敏感性显著更高。

更广泛的结果†表明，这两个模型对用户的年龄、宗教、出生地区和当前居住地也有很高的反应。在某些情况下，所测试的模型在超过一半的提示中会因这些身份线索而改变答案。