当前位置: 首页 > news >正文

论文略读:Position: AI Evaluation Should Learn from How We Test Humans

ICML 2025

  • 目前AI的benchmark,大体上都准备一个庞大全面的测试集,模型答题后按准确率等各类指标打分
    • 但这种评估范式实际应用中存在如下问题:
      • 成本:尤其针对大模型,评估涉及大量的计算成本、人工成本、时间成本
      • 可靠性:大量题目存在重复/冗余、题目质量良莠不齐
      • 安全性:很多测试题在训练阶段被模型“见过”/“记住”了
      • 可解释性:只观测到“做对多少题”,但不知道“能力强在哪儿”“能力有多强”
  • ——>论文受到心理测量学(Psychometrics)自适应测试的启发,认为:
    • 每道题的重要性和信息价值都不同,可估计出每个题目的难度、区分度、猜测概率等统计特征
      • 难度:
        • 下图的两个问题单独有差异,简单的题目中有明显的情感偏向词汇
      • 可靠性(区分度)
        • Benchmark 中可能出现低质量甚至是标注错误的题目
      • 猜测系数
        • 部分题目易被“猜对”,无法真实考察能力
        • 下图是MedQA的一道题,即便模型缺乏医学知识,也可能仅凭常识猜对,这些题目的高猜测系数削弱了其评估价值
    • 系统根据考生表现动态分发题目,更精准评估能力
  • 当然还有一个问题是数据污染问题:测试数据很可能被模型在训练阶段“看”过
    • 之前针对 LLM 的污染检测方法
      • 高难题答对,低难题却答错
      • 模型频繁在“不可能答对的题”上答对
    • 此时自适应测试的天然优势出现了
      • 每个模型做的题不同,完整的测试集没有完全暴露,进一步降低了数据污染风险

相关文章:

  • SpringCloud学习笔记-4
  • Linux驱动学习day3
  • 动手学深度学习pytorch(第一版)学习笔记汇总
  • 6.8 note
  • el-input,金额千分符自动转换
  • window下配置ssh免密登录服务器
  • RushDB开源程序 是现代应用程序和 AI 的即时数据库。建立在 Neo4j 之上
  • 【网站建设】不同类型网站如何选择服务器?建站项目实战总结
  • 【MySQL系列】MySQL 执行 SQL 文件
  • GeoBoundaries下载行政区划边界数据(提供中国资源shapefile)
  • Linux:守护进程(进程组、会话和守护进程)
  • Ubuntu系统多网卡多相机IP设置方法
  • Prompt工程学习之思维树(TOT)
  • Prompt Tuning(提示调优)到底训练优化的什么部位
  • 在React 中安装和配置 shadcn/ui
  • Windmill:开源开发者基础设施的革命者
  • Prompt工程学习之自我一致性
  • 双指针详解
  • 《第五人格》暑期活动前瞻爆料:39赛季精华、限定时装返场、新玩法攻略
  • JavaScript 数组学习总结
  • 网络营销是什么专业学的/seochan是什么意思
  • 政府网站建设工作会议工作报告/百度指数人群画像哪里查询
  • 官方在家做兼职的网站/百度浏览器网站入口
  • web网站开发毕设/郑州seo技术
  • 网页设计网站架构/网站优化名词解释
  • 网站js修改头像代码/网站备案查询官网