当前位置: 首页 > news >正文

【NLP 57、LLM通用能力评价方式】

人生如题,放下,是最优雅的解法                

                                                —— 25.4.9

目前,我们通过一些特殊的“集合”来评价大语言模型效果

一、MMLU 集合

测量大规模多任务语言理解

        评估模型在57个学科领域的综合知识理解能力,覆盖人文、社科、STEM(科学/技术/工程/数学)等方向,包括法律、伦理、医学等专业领域。

题目示例:


二、CMMLU 集合

        专为中文语境设计,覆盖67个学科(含中国特色主题如“中国饮食文化”“驾驶规则”),评估模型的本土化知识及逻辑推理能力。


三、CEVAL 集合

        中文综合性评估套件,覆盖52个学科(如微积分、法学)及四个难度层级(初中至专业考试)。


四、GSM8k 集合

        测试模型解决小学数学应用题的能力,需多步骤算术推理。


五、HumanEval 集合

        评估代码生成能力,要求模型根据函数签名和文档字符串编写正确代码。

        最终评定是否能够成功执行以及执行结果是否正确


六、GPQA 集合

        博士级科学问答基准,测试模型在生物学、物理学、化学领域的深度推理能力。


七、MATH 集合

        评估高中数学竞赛级问题的解决能力,涵盖代数、几何、概率等。


八、数据集对比

​数据集​​核心能力​​数据规模​​难度层级​​应用领域​
MMLU多学科综合知识15k+初级至专家级通用智能评估
CMMLU中文本土化推理11k+小学至专业考试中文场景优化
C-Eval中文跨学科深度推理14k+初中至专业考试本土化知识库构建
GSM8K基础数学推理8.5k小学水平教育辅助工具开发
HumanEval代码生成与测试164初级至中等自动化编程、代码补全
GPQA博士级科学推理448专家级科研辅助、专业咨询
MATH高阶数学竞赛问题12.5k高中竞赛至奥林匹克数学教育、算法优化

九、Chatbot Arena

对同一个问题,由不同模型匿名生成不同答案,由人工进行打分


十、GPT4 评价

将不同LLM给出的答案送入GPT4

让GPT4对于结果好坏进行排序

优点:可自动化

缺点:对于事实性问题判断不准

最好的选择模型的方法是根据任务选择合适的模型,而不要相信市面上任何一个评价大语言模型能力的数据集,以在我们实际任务上的效果为准

http://www.dtcms.com/a/122310.html

相关文章:

  • Shell脚本的学习
  • Python基础全解析:从输入输出到字符编码的深度探索
  • MySQL体系架构(一)
  • Apache Camel指南-第一章:路由定义构建块
  • 在 VMware 中为 Ubuntu 24.04 虚拟机设置共享文件夹后,在虚拟机中未能看到共享的内容
  • JavaScript学习23-定时器
  • MCP基础学习计划:从MCP入门到项目构建的全面指南
  • 【AI技术】Function Calling、LangChain、MCP协议、AI IDE工具了解
  • Bootstrap5 消息弹窗
  • 点云从入门到精通技术详解100篇-基于点云的三维多目标追踪与目标检测
  • android studio编译报错 Gradle
  • Linux驱动-块设备驱动
  • 前端快速入门——JavaScript变量、控制语句
  • 依靠视频设备轨迹回放平台EasyCVR构建视频监控,为幼教连锁园区安全护航
  • java设计模式-原型模式
  • DeepSeek 都开源了哪些技术?
  • 15. git push
  • 数据结构与算法分析:哈希表简述(一)
  • vue3项目跨域请求
  • 【C语言加油站】文件存储形式全解析:文本文件与二进制文件的本质区别
  • 【创新实训个人博客】prompt嵌入
  • linux shell looop循环写法
  • 回溯——固定套路 | 面试算法12道
  • 研究嵌入式软件架构时遇到的初始化堆栈溢出问题
  • 用Python爬虫抓取数据并保存为JSON的完整指南
  • GitHub 克隆/下载失败的解决方案
  • NOIP2011提高组.玛雅游戏
  • 【AAOS】【源码分析】CarAudioService(二)-- 功能介绍
  • 单旋翼无人机(直升机)和四旋翼无人机优势对比
  • 2.BGP水平分割