当前位置：首页 > news >正文

LLM 笔记 —— 02 大语言模型能力评定

news 2025/10/3 9:17:40

本文探讨了评估语言模型性能的不同方法及其局限性。对于选择题，模型输出可能包含文字、概率或推断，难以标准化评判，开放性问题则更难统一标准，解决方案包括wit人类评审、使用更强模型模型（如GPT-4）评判，但需注意"内卷"（过长输出）的影响。

测试应涵盖多样化任务（如BIG-bench中的200多个特定任务）或专项能力（如长文理解），此外，研究表明语言模型可能为达成目标而降低道德标准，心智理论能力较弱，且存在记忆训练数据的问题，还需考虑价格、速度等实际因素，评估需综合多种方法，避免单一标准带来的偏差。

在这里插入图片描述

Benchmark Corpus 基准语料库

01 如何根据标准答案决定语言模型输出是否正确？

也许，可以考察选择题？

Massive Multitask Language Understanding (MMLU)

在这里插入图片描述

即便是选择题，评比标准的不同也会导致得到的测试结果不同，比如，语言模型没有输出 ABCD，而是回答一堆文字，一些概率，或者一些推断，算不算对呢？比如，模型喜欢猜测答案，偏好某些字母或数字，测试结果也不同。

选择题尚且如此，如果是一般的问答、翻译、摘要等，语言模型的回答更是五花八门，难以评定。

在这里插入图片描述

也许，是人类来评定更加合理？

在这里插入图片描述

语言模型天梯榜

在这里插入图片描述

也许，可以用更强大的语言模型来判断？

在这里插入图片描述

MT-Bench 采用 ChatGPT-4 来进行衡量

在这里插入图片描述

但是，有些语言模型喜欢长篇大论，也就是内卷，这也会对评定结果有偏差，因此，我们需要在评价时引入长度因素，输出过长会被扣分。

02 我们应该输入什么问题给语言模型？

现如今，语言模型的能力都是比较全面的，我们在检测这些语言模型的能力时，往往期待收集大量各式各样的任务，来看看语言模型是不是各式各样的任务都能办好。

在这里插入图片描述

注意，BIG-bench 中收集了各种奇奇怪怪的任务，200多个，比如符号猜测（Emoji Movie）、下西洋棋（Checkmate In One Move）、翻译密码（ASCⅡ word recognition）。

Emoji Movie

在这里插入图片描述

Checkmate In One Move

在这里插入图片描述

ASCⅡ word recognition

在这里插入图片描述

有时，我们也想评测特定能力，比如，阅读长文的能力。有一种评测方法，叫做大海捞针（Needle in a Haystack）。

在这里插入图片描述

实验表明，输入文本的长度低于64K token时，无论插入在什么地方，GPT-4 都可以准确截取最好资讯，高于64K token时，如果插入在10% ~ 50%位置，GPT-4 就可能无法获得最好资讯。

同样地，我们也对 Claude-2.1 进行测试，实验结果如下：

在这里插入图片描述

Claude 团队看到这个结果，两眼一黑，专门发布文章，声称更改提问方式可以大大提高实验结果数值，如下：

在这里插入图片描述

03 语言模型会不会为达目标不择手段？

龙与地下城

在这里插入图片描述

实验结果如下，横轴代表分数，纵轴代表道德水平：

在这里插入图片描述

04 机器有没有心智理论（Theory of Mind）？

心智理论（Theory of Mind）：揣摩他人想法的能力，也就是我知道你知道我知道…

在这里插入图片描述

设计一个聊天场景，询问凯莉，琳达的狗是什么品种，正确答案是，凯莉不知道琳达的狗是什么品种，因为他们聊到这个话题时凯莉并不在场。

在这里插入图片描述

实验表明，人类在该问题上的正确率为87.5%，其他的所有大模型正确率都非常低，说明其的心智水平也比较低。

在这里插入图片描述

请注意，新出的题目一旦在网络上公开，就可能被语言模型学习，即便换一套说法测试模型，也会得到相当好的效果。

在这里插入图片描述

有一个百口莫辩的实验，直接询问语言模型有没有资料集RTE里面的资料，如果模型给出的资料和实际资料一毛一样，那就实锤模型偷看过这些资料和正确答案。

在这里插入图片描述

实验结果如下：

在这里插入图片描述

可以看出，很多资料集，GPT-3.5都能输出相关资料，实锤了！

05 其他面向：价格、速度…

在这里插入图片描述

查看全文

http://www.dtcms.com/a/435338.html

做网站视频用哪个视频编辑软件网站设计相似侵权吗

[特殊字符]灵感补给站 | pinterest 设计灵感分享 UI版面设计3

网站主机一般选哪种的远程访问群晖wordpress

Edit Starts找不到Mybatis Framwork依赖

【C++算法】类与对象通用题目解析分享

C语言中原子操作（简要）

珠宝行业做网站的好处网站建设平台有哪些谢谢平台建站

OpenOCD 终端使用指令大全

JS工具函数与代码优化实战

学生信息管理系统|基于Springboot的学生信息管理系统设计与实现(源码+数据库+文档)

哪些ppt网站是免费的wordpress微信验证码

【P0】Spring 面试篇

pyqt 播放视频遮罩显示时钟

Day01_刷题niuke20251002

做宠物商品的网站公司网页首页图片

衡水建设网站长沙房地产网站建设

linux进程与服务

wordpress订阅会员seo建站技术

医疗AI平台化转型：从单点试点到体系化建设的互操作性与质量控制路径研究（下）

JavaScript 数组清空的三种方式

网站云空间和普通空间上海传媒公司官网

网站标题正确书写标准微信公众号登录不上

复制标签页导致的Vue动态路由失效问题解决思路

从零起步学习Redis || 第六章：Redis单线程模式的实现详解

影视公司网站设计河南省建设厅厅长

PySide6 新(建)窗口简单示例

逍遥WEBP图片转换组件XiaoyaoWebp.dll

网站建设公司+长春建设部质监局网站

Oracle的connect by level在MySQL中的华丽变身

wordpress 便签四川旅游seo整站优化站优化

01 如何根据标准答案决定语言模型输出是否正确？

02 我们应该输入什么问题给语言模型？

03 语言模型会不会为达目标不择手段？

04 机器有没有心智理论（Theory of Mind）？

05 其他面向：价格、速度…

相关文章：