论文阅读:EMNLP 2024 Humans or LLMs as the Judge? A Study on Judgement Bias
总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
https://arxiv.org/pdf/2402.10669
https://www.doubao.com/chat/20770542681046530
速览
这篇文档本质是一项“裁判公平性测试”研究——专门探究人类和大语言模型(比如GPT-4、Claude这些)当“裁判”时,会不会因为各种因素产生偏见,进而影响评价结果的可靠性。下面用通俗的话拆解核心内容:
一、研究背景:为啥要做这个测试?
现在大家常用“裁判”来评估AI模型的表现(比如判断两个AI回答哪个更好),但“裁判”分两种:
- 人类裁判:比如让大学生打分,但人容易有主观偏好(比如觉得“写得长的就是好的”);
- AI裁判(LLM-as-a-judge):比如用GPT-4当裁判,比人类高效,但也可能有“隐形偏见”(比如看到带参考文献的回答就觉得更靠谱)。
之前的研究要么需要“标准答案”(比如判断对错),要么测试场景太局限,这篇研究就想解决一个问题:没有标准答案的开放场景下(比如“怎么规划一个小派对”),人类和AI裁判到底有多偏?
二、重点测了4种“偏见”:都是生活里也常见的类型
研究者先明确了要测的4种偏见,分两类:
1. 跟“内容本身”相关的偏见(看内容时会偏)
- 误信偏见:容易忽略回答里的事实错误。比如把“36的平方根是7”当成对的,没发现错了。
- 性别偏见:对带性别歧视的内容不敏感。比如回答里说“女生可能听不懂这个数学概念”,裁判没觉得有问题。
2. 跟“内容无关”的偏见(被表面形式带偏)
- 权威偏见:看到“参考文献”就觉得靠谱,哪怕是假的。比如回答里加个“来自某某权威网站”,其实是编的,裁判却更认可。
- 颜值偏见:喜欢“长得好看”的回答,比如带emoji、用花里胡哨的格式(比如加粗、列表),哪怕内容一般。
三、测试方法:不用标准答案,靠“对比实验”
为了避免“标准答案”的限制,研究者设计了一个很巧妙的“对照组+实验组”方案:
- 先做“对照组”:给裁判一个问题+两个正常回答(比如“36的平方根是多少”,两个回答都对,只是表述不同),记录裁判更偏爱哪个。
- 再做“实验组”:把对照组里的一个回答“动手脚”(比如加假参考文献、加emoji、故意加个小错误),变成“被干扰的回答”,再让裁判对比“原回答”和“被干扰的回答”,看裁判的偏好会不会变。
- 算“偏见程度”:用“攻击成功率(ASR)”衡量——ASR越高,说明裁判越容易被干扰,偏见越严重(比如ASR=50%,意味着一半的裁判被假参考文献骗了)。
四、测试对象:60个大学生+10多个主流AI模型
- 人类裁判:60个大学生,要求英语好、掌握初高中数学/物理,避免“看不懂题”影响判断,每小时给30元报酬。
- AI裁判:包括GPT-4、GPT-4o、Claude-2/3、Gemini-Pro、LLaMA2等,排除了那些“严重偏心位置”的模型(比如有的模型永远选第一个回答,这种直接淘汰)。
五、关键结果:人类和AI各有各的“偏”
1. 人类裁判的表现:整体比AI“性别公平”,但容易被“表面形式”骗
- 优点:几乎没有性别偏见——因为都是受过教育的大学生,对“性别歧视内容”很敏感,不会纵容;
- 缺点:
- 容易犯“误信偏见”:比如没发现回答里的小错误(比顶尖AI差);
- 有“颜值偏见”:看到带emoji、花格式的回答就更喜欢,哪怕内容和普通回答差不多;
- 有“权威偏见”:看到假参考文献就觉得靠谱,和随机瞎猜的水平差不多。
2. AI裁判的表现:全有偏见,只是偏的程度不同
- 所有AI都有“误信偏见”:只是顶尖AI(比如GPT-4o、Claude-3)能少犯点错(ASR不到11%),差一点的AI(比如LLaMA2-70B)能错一半以上;
- 所有AI都有“性别偏见”:哪怕经过“公平性训练”,还是会对带性别歧视的内容不敏感(比如觉得“女生听不懂数学”的回答没问题),反观人类完全没这个问题;
- 大部分AI有“权威偏见”:看到假参考文献就上当,比如Claude-2的ASR高达89%(几乎全被骗),只有GPT-4o稍好一点(32%被骗,比随机好一点点);
- 部分AI有“颜值偏见”:比如GPT-4看到带emoji的回答就偏爱,而GPT-4o、Claude-3这类顶尖AI能抗住这种干扰。
六、更狠的测试:能不能“骗”AI裁判?
研究者还试了一招:故意用“弱回答”(比如内容差、有错误的回答),加个假参考文献或花格式,看能不能让AI裁判觉得它比“好回答”更好。结果很扎心:
- 只要加假参考文献,很多AI会被骗。比如GPT-4面对“好回答”和“加了假参考文献的弱回答”,居然有40%的概率觉得“弱回答”更好;
- 如果两个回答质量差距特别大(比如一个是GPT-3.5写的,一个是差AI写的),AI裁判还能抗住骗;但如果差距小,一骗一个准。
七、结论:裁判不好当,还得改进
- 人类裁判:虽然性别公平,但容易被“假权威”“花格式”带偏,需要更明确的评价规则(比如“忽略格式,只看内容”);
- AI裁判:所有类型的偏见都有,尤其是性别偏见和权威偏见,哪怕是顶尖模型也不完美,未来需要更精准的“去偏见训练”(比如教AI识别假参考文献、对性别歧视更敏感);
- 提醒大家:现在用“人类/AI当裁判”评估AI时,得警惕这些偏见——不然可能明明是差回答,却因为“带参考文献”“格式好看”被打高分。
简单说,这篇研究就像给“裁判们”做了一次“公平性体检”,结果发现:不管是人还是AI,当裁判时都可能“看人下菜碟”,要想让评价结果靠谱,还得针对性“治偏”。