当前位置: 首页 > news >正文

LLM 笔记 —— 02 大语言模型能力评定

本文探讨了评估语言模型性能的不同方法及其局限性。对于选择题,模型输出可能包含文字、概率或推断,难以标准化评判,开放性问题则更难统一标准,解决方案包括wit人类评审、使用更强模型模型(如GPT-4)评判,但需注意"内卷"(过长输出)的影响。

测试应涵盖多样化任务(如BIG-bench中的200多个特定任务)或专项能力(如长文理解),此外,研究表明语言模型可能为达成目标而降低道德标准,心智理论能力较弱,且存在记忆训练数据的问题,还需考虑价格、速度等实际因素,评估需综合多种方法,避免单一标准带来的偏差。

在这里插入图片描述

Benchmark Corpus 基准语料库

01 如何根据标准答案决定语言模型输出是否正确?

也许,可以考察选择题?

Massive Multitask Language Understanding (MMLU)

在这里插入图片描述

即便是选择题,评比标准的不同也会导致得到的测试结果不同,比如,语言模型没有输出 ABCD,而是回答一堆文字,一些概率,或者一些推断,算不算对呢?比如,模型喜欢猜测答案,偏好某些字母或数字,测试结果也不同。

选择题尚且如此,如果是一般的问答、翻译、摘要等,语言模型的回答更是五花八门,难以评定。

在这里插入图片描述

也许,是人类来评定更加合理?

在这里插入图片描述

语言模型天梯榜

在这里插入图片描述

也许,可以用更强大的语言模型来判断?

在这里插入图片描述

MT-Bench 采用 ChatGPT-4 来进行衡量

在这里插入图片描述

在这里插入图片描述

但是,有些语言模型喜欢长篇大论,也就是内卷,这也会对评定结果有偏差,因此,我们需要在评价时引入长度因素,输出过长会被扣分。

02 我们应该输入什么问题给语言模型?

现如今,语言模型的能力都是比较全面的,我们在检测这些语言模型的能力时,往往期待收集大量各式各样的任务,来看看语言模型是不是各式各样的任务都能办好。

在这里插入图片描述

注意,BIG-bench 中收集了各种奇奇怪怪的任务,200多个,比如符号猜测(Emoji Movie)、下西洋棋(Checkmate In One Move)、翻译密码(ASCⅡ word recognition)。

Emoji Movie

在这里插入图片描述

Checkmate In One Move

在这里插入图片描述

ASCⅡ word recognition

在这里插入图片描述

有时,我们也想评测特定能力,比如,阅读长文的能力。有一种评测方法,叫做大海捞针(Needle in a Haystack)。

在这里插入图片描述

在这里插入图片描述

实验表明,输入文本的长度低于64K token时,无论插入在什么地方,GPT-4 都可以准确截取最好资讯,高于64K token时,如果插入在10% ~ 50%位置,GPT-4 就可能无法获得最好资讯。

同样地,我们也对 Claude-2.1 进行测试,实验结果如下:

在这里插入图片描述

Claude 团队看到这个结果,两眼一黑,专门发布文章,声称更改提问方式可以大大提高实验结果数值,如下:

在这里插入图片描述

03 语言模型会不会为达目标不择手段?

龙与地下城

在这里插入图片描述

实验结果如下,横轴代表分数,纵轴代表道德水平:

在这里插入图片描述

04 机器有没有心智理论(Theory of Mind)?

心智理论(Theory of Mind):揣摩他人想法的能力,也就是我知道你知道我知道…

在这里插入图片描述

设计一个聊天场景,询问凯莉,琳达的狗是什么品种,正确答案是,凯莉不知道琳达的狗是什么品种,因为他们聊到这个话题时凯莉并不在场。

在这里插入图片描述

实验表明,人类在该问题上的正确率为87.5%,其他的所有大模型正确率都非常低,说明其的心智水平也比较低。

在这里插入图片描述

请注意,新出的题目一旦在网络上公开,就可能被语言模型学习,即便换一套说法测试模型,也会得到相当好的效果。

在这里插入图片描述

在这里插入图片描述

有一个百口莫辩的实验,直接询问语言模型有没有资料集RTE里面的资料,如果模型给出的资料和实际资料一毛一样,那就实锤模型偷看过这些资料和正确答案。

在这里插入图片描述

实验结果如下:

在这里插入图片描述

可以看出,很多资料集,GPT-3.5都能输出相关资料,实锤了!

05 其他面向:价格、速度…

在这里插入图片描述

http://www.dtcms.com/a/435338.html

相关文章:

  • 做网站视频用哪个视频编辑软件网站设计相似侵权吗
  • [特殊字符]灵感补给站 | pinterest 设计灵感分享 UI版面设计3
  • 网站主机一般选哪种的远程访问群晖wordpress
  • Edit Starts找不到Mybatis Framwork依赖
  • 【C++算法】类与对象通用题目解析分享
  • C语言中原子操作(简要)
  • 珠宝行业做网站的好处网站建设平台有哪些 谢谢平台建站
  • OpenOCD 终端使用指令大全
  • JS工具函数与代码优化实战
  • 学生信息管理系统|基于Springboot的学生信息管理系统设计与实现(源码+数据库+文档)
  • 哪些ppt网站是免费的wordpress微信验证码
  • 【P0】Spring 面试篇
  • pyqt 播放视频遮罩显示 时钟
  • Day01_刷题niuke20251002
  • 做宠物商品的网站公司网页首页图片
  • 衡水建设网站长沙房地产网站建设
  • linux进程与服务
  • wordpress订阅会员seo建站技术
  • 医疗AI平台化转型:从单点试点到体系化建设的互操作性与质量控制路径研究(下)
  • JavaScript 数组清空的三种方式
  • 网站云空间和普通空间上海传媒公司官网
  • 网站标题正确书写标准微信公众号登录不上
  • 复制标签页导致的Vue动态路由失效问题解决思路
  • 从零起步学习Redis || 第六章:Redis单线程模式的实现详解
  • 影视公司网站设计河南省建设厅厅长
  • PySide6 新(建)窗口 简单示例
  • 逍遥WEBP图片转换组件XiaoyaoWebp.dll
  • 网站建设公司+长春建设部质监局网站
  • Oracle的connect by level在MySQL中的华丽变身
  • wordpress 便签四川旅游seo整站优化站优化