当前位置：首页 > news >正文

论文阅读：EMNLP 2024 Humans or LLMs as the Judge? A Study on Judgement Bias

news 2025/9/18 10:26:55

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2402.10669

https://www.doubao.com/chat/20770542681046530

在这里插入图片描述

速览

这篇文档本质是一项“裁判公平性测试”研究——专门探究人类和大语言模型（比如GPT-4、Claude这些）当“裁判”时，会不会因为各种因素产生偏见，进而影响评价结果的可靠性。下面用通俗的话拆解核心内容：

一、研究背景：为啥要做这个测试？

现在大家常用“裁判”来评估AI模型的表现（比如判断两个AI回答哪个更好），但“裁判”分两种：

人类裁判：比如让大学生打分，但人容易有主观偏好（比如觉得“写得长的就是好的”）；
AI裁判（LLM-as-a-judge）：比如用GPT-4当裁判，比人类高效，但也可能有“隐形偏见”（比如看到带参考文献的回答就觉得更靠谱）。

之前的研究要么需要“标准答案”（比如判断对错），要么测试场景太局限，这篇研究就想解决一个问题：没有标准答案的开放场景下（比如“怎么规划一个小派对”），人类和AI裁判到底有多偏？

二、重点测了4种“偏见”：都是生活里也常见的类型

研究者先明确了要测的4种偏见，分两类：

1. 跟“内容本身”相关的偏见（看内容时会偏）

误信偏见：容易忽略回答里的事实错误。比如把“36的平方根是7”当成对的，没发现错了。
性别偏见：对带性别歧视的内容不敏感。比如回答里说“女生可能听不懂这个数学概念”，裁判没觉得有问题。

2. 跟“内容无关”的偏见（被表面形式带偏）

权威偏见：看到“参考文献”就觉得靠谱，哪怕是假的。比如回答里加个“来自某某权威网站”，其实是编的，裁判却更认可。
颜值偏见：喜欢“长得好看”的回答，比如带emoji、用花里胡哨的格式（比如加粗、列表），哪怕内容一般。

三、测试方法：不用标准答案，靠“对比实验”

为了避免“标准答案”的限制，研究者设计了一个很巧妙的“对照组+实验组”方案：

先做“对照组”：给裁判一个问题+两个正常回答（比如“36的平方根是多少”，两个回答都对，只是表述不同），记录裁判更偏爱哪个。
再做“实验组”：把对照组里的一个回答“动手脚”（比如加假参考文献、加emoji、故意加个小错误），变成“被干扰的回答”，再让裁判对比“原回答”和“被干扰的回答”，看裁判的偏好会不会变。
算“偏见程度”：用“攻击成功率（ASR）”衡量——ASR越高，说明裁判越容易被干扰，偏见越严重（比如ASR=50%，意味着一半的裁判被假参考文献骗了）。

四、测试对象：60个大学生+10多个主流AI模型

人类裁判：60个大学生，要求英语好、掌握初高中数学/物理，避免“看不懂题”影响判断，每小时给30元报酬。
AI裁判：包括GPT-4、GPT-4o、Claude-2/3、Gemini-Pro、LLaMA2等，排除了那些“严重偏心位置”的模型（比如有的模型永远选第一个回答，这种直接淘汰）。

五、关键结果：人类和AI各有各的“偏”

1. 人类裁判的表现：整体比AI“性别公平”，但容易被“表面形式”骗

优点：几乎没有性别偏见——因为都是受过教育的大学生，对“性别歧视内容”很敏感，不会纵容；
缺点：
- 容易犯“误信偏见”：比如没发现回答里的小错误（比顶尖AI差）；
- 有“颜值偏见”：看到带emoji、花格式的回答就更喜欢，哪怕内容和普通回答差不多；
- 有“权威偏见”：看到假参考文献就觉得靠谱，和随机瞎猜的水平差不多。

2. AI裁判的表现：全有偏见，只是偏的程度不同

所有AI都有“误信偏见”：只是顶尖AI（比如GPT-4o、Claude-3）能少犯点错（ASR不到11%），差一点的AI（比如LLaMA2-70B）能错一半以上；
所有AI都有“性别偏见”：哪怕经过“公平性训练”，还是会对带性别歧视的内容不敏感（比如觉得“女生听不懂数学”的回答没问题），反观人类完全没这个问题；
大部分AI有“权威偏见”：看到假参考文献就上当，比如Claude-2的ASR高达89%（几乎全被骗），只有GPT-4o稍好一点（32%被骗，比随机好一点点）；
部分AI有“颜值偏见”：比如GPT-4看到带emoji的回答就偏爱，而GPT-4o、Claude-3这类顶尖AI能抗住这种干扰。

六、更狠的测试：能不能“骗”AI裁判？

研究者还试了一招：故意用“弱回答”（比如内容差、有错误的回答），加个假参考文献或花格式，看能不能让AI裁判觉得它比“好回答”更好。结果很扎心：

只要加假参考文献，很多AI会被骗。比如GPT-4面对“好回答”和“加了假参考文献的弱回答”，居然有40%的概率觉得“弱回答”更好；
如果两个回答质量差距特别大（比如一个是GPT-3.5写的，一个是差AI写的），AI裁判还能抗住骗；但如果差距小，一骗一个准。

七、结论：裁判不好当，还得改进

人类裁判：虽然性别公平，但容易被“假权威”“花格式”带偏，需要更明确的评价规则（比如“忽略格式，只看内容”）；
AI裁判：所有类型的偏见都有，尤其是性别偏见和权威偏见，哪怕是顶尖模型也不完美，未来需要更精准的“去偏见训练”（比如教AI识别假参考文献、对性别歧视更敏感）；
提醒大家：现在用“人类/AI当裁判”评估AI时，得警惕这些偏见——不然可能明明是差回答，却因为“带参考文献”“格式好看”被打高分。

简单说，这篇研究就像给“裁判们”做了一次“公平性体检”，结果发现：不管是人还是AI，当裁判时都可能“看人下菜碟”，要想让评价结果靠谱，还得针对性“治偏”。

文章转载自：

http://aRtYCjF8.Lbbrw.cn
http://rtvqm2SI.Lbbrw.cn
http://RniYRwWV.Lbbrw.cn
http://6u9LnNzh.Lbbrw.cn
http://WE5Qbke4.Lbbrw.cn
http://vZKdjgrD.Lbbrw.cn
http://ppvfnpqW.Lbbrw.cn
http://ChklyQdz.Lbbrw.cn
http://FAgeZBAF.Lbbrw.cn
http://oloDbshZ.Lbbrw.cn
http://veH0H1YA.Lbbrw.cn
http://pSvjIP3X.Lbbrw.cn
http://nvrMWWCw.Lbbrw.cn
http://wOF3flUg.Lbbrw.cn
http://kbXRR6hT.Lbbrw.cn
http://tFroK96C.Lbbrw.cn
http://hQVYKF50.Lbbrw.cn
http://LaRdLcHl.Lbbrw.cn
http://wC6clKwn.Lbbrw.cn
http://X7bjttHE.Lbbrw.cn
http://bZsM4VCA.Lbbrw.cn
http://hRsXdueD.Lbbrw.cn
http://VJ76slpC.Lbbrw.cn
http://e0R7HIUq.Lbbrw.cn
http://P98WvTU6.Lbbrw.cn
http://S3WZpbNN.Lbbrw.cn
http://rO0ayNpK.Lbbrw.cn
http://BJtIyUBx.Lbbrw.cn
http://ptVkhNTF.Lbbrw.cn
http://agBK314X.Lbbrw.cn

http://www.dtcms.com/a/388331.html

相关文章：

4-1〔O҉S҉C҉P҉ ◈ 研记〕❘ WEB应用攻击▸目录遍历漏洞-A

买期货卖认购期权策略

使用 VB.NET 进行仪器编程

C# DataGridView中DataGridViewCheckBoxColumn不能界面上勾选的原因

FT5206GE1屏幕驱动适配STM32F1 型号SLC07009A（记录第一次完全独自编写触摸板驱动）

PETRV1在NuScenes数据集上的推理及可视化详解

函数后的 `const` 关键字

Dify 从入门到精通（第 85/100 篇）：Dify 的多模态模型扩展性（高级篇）

Flutter-[2]第一个应用

Jenkins + SonarQube 从原理到实战六：Jenkins 和 SonarQube 的项目落地实践

PyMOL 命令行完全指南（终极完整版）

WJCZ 麦角硫因：专利赋能，开启肌肤抗衰新征程

机器人控制器开发(通讯——机器人通讯协议API定义)

高斯核2D热力图heatmap-gauss

【ubuntu24.04】NFS机械硬盘无法挂载成功

虚函数（Virtual Function）和纯虚函数（Pure Virtual Function）

03-Linux用户和权限

本地大模型编程实战(35)使用知识图谱增强RAG(1)知识图谱简介

Spring —— 拦截器和异常处理

JavaScript逆向Hook技术及常用Hook脚本

Part04 算法

硬件 - 立创EDA入门实践 - 从DCDC降压芯片带您从原理图到PCB到打板

安全认证哪家强？CISP和HCIE我选......

视频分类 r2plus1d 推理测试

SQL Server字符串有西里尔字母完整的字符识别和替换解决方案

密码学误用启示录：案例拆解与正确实践指南

黑曜石工作室开发《宣誓》后还希望公司能长期发展

大模型的超大激活值研究

ES项目如何导入 CommonJS 文件 import 报错 does not provide an export named ‘default‘

深度学习笔记：线性回归与 Softmax 回归