当前位置: 首页 > news >正文

论文阅读:EMNLP 2024 Humans or LLMs as the Judge? A Study on Judgement Bias

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2402.10669

https://www.doubao.com/chat/20770542681046530

在这里插入图片描述

速览

这篇文档本质是一项“裁判公平性测试”研究——专门探究人类大语言模型(比如GPT-4、Claude这些)当“裁判”时,会不会因为各种因素产生偏见,进而影响评价结果的可靠性。下面用通俗的话拆解核心内容:

一、研究背景:为啥要做这个测试?

现在大家常用“裁判”来评估AI模型的表现(比如判断两个AI回答哪个更好),但“裁判”分两种:

  1. 人类裁判:比如让大学生打分,但人容易有主观偏好(比如觉得“写得长的就是好的”);
  2. AI裁判(LLM-as-a-judge):比如用GPT-4当裁判,比人类高效,但也可能有“隐形偏见”(比如看到带参考文献的回答就觉得更靠谱)。

之前的研究要么需要“标准答案”(比如判断对错),要么测试场景太局限,这篇研究就想解决一个问题:没有标准答案的开放场景下(比如“怎么规划一个小派对”),人类和AI裁判到底有多偏?

二、重点测了4种“偏见”:都是生活里也常见的类型

研究者先明确了要测的4种偏见,分两类:

1. 跟“内容本身”相关的偏见(看内容时会偏)
  • 误信偏见:容易忽略回答里的事实错误。比如把“36的平方根是7”当成对的,没发现错了。
  • 性别偏见:对带性别歧视的内容不敏感。比如回答里说“女生可能听不懂这个数学概念”,裁判没觉得有问题。
2. 跟“内容无关”的偏见(被表面形式带偏)
  • 权威偏见:看到“参考文献”就觉得靠谱,哪怕是假的。比如回答里加个“来自某某权威网站”,其实是编的,裁判却更认可。
  • 颜值偏见:喜欢“长得好看”的回答,比如带emoji、用花里胡哨的格式(比如加粗、列表),哪怕内容一般。

三、测试方法:不用标准答案,靠“对比实验”

为了避免“标准答案”的限制,研究者设计了一个很巧妙的“对照组+实验组”方案:

  1. 先做“对照组”:给裁判一个问题+两个正常回答(比如“36的平方根是多少”,两个回答都对,只是表述不同),记录裁判更偏爱哪个。
  2. 再做“实验组”:把对照组里的一个回答“动手脚”(比如加假参考文献、加emoji、故意加个小错误),变成“被干扰的回答”,再让裁判对比“原回答”和“被干扰的回答”,看裁判的偏好会不会变。
  3. 算“偏见程度”:用“攻击成功率(ASR)”衡量——ASR越高,说明裁判越容易被干扰,偏见越严重(比如ASR=50%,意味着一半的裁判被假参考文献骗了)。

四、测试对象:60个大学生+10多个主流AI模型

  • 人类裁判:60个大学生,要求英语好、掌握初高中数学/物理,避免“看不懂题”影响判断,每小时给30元报酬。
  • AI裁判:包括GPT-4、GPT-4o、Claude-2/3、Gemini-Pro、LLaMA2等,排除了那些“严重偏心位置”的模型(比如有的模型永远选第一个回答,这种直接淘汰)。

五、关键结果:人类和AI各有各的“偏”

1. 人类裁判的表现:整体比AI“性别公平”,但容易被“表面形式”骗
  • 优点:几乎没有性别偏见——因为都是受过教育的大学生,对“性别歧视内容”很敏感,不会纵容;
  • 缺点:
    • 容易犯“误信偏见”:比如没发现回答里的小错误(比顶尖AI差);
    • 有“颜值偏见”:看到带emoji、花格式的回答就更喜欢,哪怕内容和普通回答差不多;
    • 有“权威偏见”:看到假参考文献就觉得靠谱,和随机瞎猜的水平差不多。
2. AI裁判的表现:全有偏见,只是偏的程度不同
  • 所有AI都有“误信偏见”:只是顶尖AI(比如GPT-4o、Claude-3)能少犯点错(ASR不到11%),差一点的AI(比如LLaMA2-70B)能错一半以上;
  • 所有AI都有“性别偏见”:哪怕经过“公平性训练”,还是会对带性别歧视的内容不敏感(比如觉得“女生听不懂数学”的回答没问题),反观人类完全没这个问题;
  • 大部分AI有“权威偏见”:看到假参考文献就上当,比如Claude-2的ASR高达89%(几乎全被骗),只有GPT-4o稍好一点(32%被骗,比随机好一点点);
  • 部分AI有“颜值偏见”:比如GPT-4看到带emoji的回答就偏爱,而GPT-4o、Claude-3这类顶尖AI能抗住这种干扰。

六、更狠的测试:能不能“骗”AI裁判?

研究者还试了一招:故意用“弱回答”(比如内容差、有错误的回答),加个假参考文献或花格式,看能不能让AI裁判觉得它比“好回答”更好。结果很扎心:

  • 只要加假参考文献,很多AI会被骗。比如GPT-4面对“好回答”和“加了假参考文献的弱回答”,居然有40%的概率觉得“弱回答”更好;
  • 如果两个回答质量差距特别大(比如一个是GPT-3.5写的,一个是差AI写的),AI裁判还能抗住骗;但如果差距小,一骗一个准。

七、结论:裁判不好当,还得改进

  1. 人类裁判:虽然性别公平,但容易被“假权威”“花格式”带偏,需要更明确的评价规则(比如“忽略格式,只看内容”);
  2. AI裁判:所有类型的偏见都有,尤其是性别偏见和权威偏见,哪怕是顶尖模型也不完美,未来需要更精准的“去偏见训练”(比如教AI识别假参考文献、对性别歧视更敏感);
  3. 提醒大家:现在用“人类/AI当裁判”评估AI时,得警惕这些偏见——不然可能明明是差回答,却因为“带参考文献”“格式好看”被打高分。

简单说,这篇研究就像给“裁判们”做了一次“公平性体检”,结果发现:不管是人还是AI,当裁判时都可能“看人下菜碟”,要想让评价结果靠谱,还得针对性“治偏”


文章转载自:

http://aRtYCjF8.Lbbrw.cn
http://rtvqm2SI.Lbbrw.cn
http://RniYRwWV.Lbbrw.cn
http://6u9LnNzh.Lbbrw.cn
http://WE5Qbke4.Lbbrw.cn
http://vZKdjgrD.Lbbrw.cn
http://ppvfnpqW.Lbbrw.cn
http://ChklyQdz.Lbbrw.cn
http://FAgeZBAF.Lbbrw.cn
http://oloDbshZ.Lbbrw.cn
http://veH0H1YA.Lbbrw.cn
http://pSvjIP3X.Lbbrw.cn
http://nvrMWWCw.Lbbrw.cn
http://wOF3flUg.Lbbrw.cn
http://kbXRR6hT.Lbbrw.cn
http://tFroK96C.Lbbrw.cn
http://hQVYKF50.Lbbrw.cn
http://LaRdLcHl.Lbbrw.cn
http://wC6clKwn.Lbbrw.cn
http://X7bjttHE.Lbbrw.cn
http://bZsM4VCA.Lbbrw.cn
http://hRsXdueD.Lbbrw.cn
http://VJ76slpC.Lbbrw.cn
http://e0R7HIUq.Lbbrw.cn
http://P98WvTU6.Lbbrw.cn
http://S3WZpbNN.Lbbrw.cn
http://rO0ayNpK.Lbbrw.cn
http://BJtIyUBx.Lbbrw.cn
http://ptVkhNTF.Lbbrw.cn
http://agBK314X.Lbbrw.cn
http://www.dtcms.com/a/388331.html

相关文章:

  • 4-1〔O҉S҉C҉P҉ ◈ 研记〕❘ WEB应用攻击▸目录遍历漏洞-A
  • 买期货卖认购期权策略
  • 使用 VB.NET 进行仪器编程
  • C# DataGridView中DataGridViewCheckBoxColumn不能界面上勾选的原因
  • FT5206GE1屏幕驱动 适配STM32F1 型号SLC07009A(记录第一次完全独自编写触摸板驱动)
  • PETRV1在NuScenes数据集上的推理及可视化详解
  • 函数后的 `const` 关键字
  • Dify 从入门到精通(第 85/100 篇):Dify 的多模态模型扩展性(高级篇)
  • Flutter-[2]第一个应用
  • Jenkins + SonarQube 从原理到实战六:Jenkins 和 SonarQube 的项目落地实践
  • PyMOL 命令行完全指南(终极完整版)
  • WJCZ 麦角硫因:专利赋能,开启肌肤抗衰新征程
  • 机器人控制器开发(通讯——机器人通讯协议API定义)
  • 高斯核2D热力图heatmap-gauss
  • 【ubuntu24.04】NFS机械硬盘无法挂载成功
  • 虚函数(Virtual Function)和纯虚函数(Pure Virtual Function)
  • 03-Linux用户和权限
  • 本地大模型编程实战(35)使用知识图谱增强RAG(1)知识图谱简介
  • Spring —— 拦截器和异常处理
  • JavaScript逆向Hook技术及常用Hook脚本
  • Part04 算法
  • 硬件 - 立创EDA入门实践 - 从DCDC降压芯片带您从原理图到PCB到打板
  • 安全认证哪家强?CISP和HCIE我选......
  • 视频分类 r2plus1d 推理测试
  • SQL Server字符串有西里尔字母完整的字符识别和替换解决方案
  • 密码学误用启示录:案例拆解与正确实践指南
  • 黑曜石工作室开发《宣誓》后还希望公司能长期发展
  • 大模型的超大激活值研究
  • ES项目如何导入 CommonJS 文件 import 报错 does not provide an export named ‘default‘
  • 深度学习笔记:线性回归与 Softmax 回归