论文略读:Position: AI Evaluation Should Learn from How We Test Humans
ICML 2025
- 目前AI的benchmark,大体上都准备一个庞大全面的测试集,模型答题后按准确率等各类指标打分
- 但这种评估范式实际应用中存在如下问题:
- 成本:尤其针对大模型,评估涉及大量的计算成本、人工成本、时间成本
- 可靠性:大量题目存在重复/冗余、题目质量良莠不齐
- 安全性:很多测试题在训练阶段被模型“见过”/“记住”了
- 可解释性:只观测到“做对多少题”,但不知道“能力强在哪儿”“能力有多强”
- 但这种评估范式实际应用中存在如下问题:
- ——>论文受到心理测量学(Psychometrics)自适应测试的启发,认为:
- 每道题的重要性和信息价值都不同,可估计出每个题目的难度、区分度、猜测概率等统计特征
- 难度:
- 下图的两个问题单独有差异,简单的题目中有明显的情感偏向词汇
- 下图的两个问题单独有差异,简单的题目中有明显的情感偏向词汇
- 可靠性(区分度)
- Benchmark 中可能出现低质量甚至是标注错误的题目
- 猜测系数
- 部分题目易被“猜对”,无法真实考察能力
- 下图是MedQA的一道题,即便模型缺乏医学知识,也可能仅凭常识猜对,这些题目的高猜测系数削弱了其评估价值
- 难度:
- 系统根据考生表现动态分发题目,更精准评估能力
- 每道题的重要性和信息价值都不同,可估计出每个题目的难度、区分度、猜测概率等统计特征
- 当然还有一个问题是数据污染问题:测试数据很可能被模型在训练阶段“看”过
- 之前针对 LLM 的污染检测方法
- 高难题答对,低难题却答错
- 模型频繁在“不可能答对的题”上答对
- 此时自适应测试的天然优势出现了
- 每个模型做的题不同,完整的测试集没有完全暴露,进一步降低了数据污染风险
- 之前针对 LLM 的污染检测方法