大模型评测调研报告
一、LLM Evaluation综述
 ●Evaluation Guide Book:
 https://github.com/huggingface/evaluation-guidebook
 ●一文了解大模型性能评测数据、指标以及框架:
 https://zhuanlan.zhihu.com/p/25471631745
 1.1 LLM Evaluation Benchmark
 知名开源:
 CMMLU, MMLU, CEval, AGI-Eval, JEC-QA, MEDMCQA, MEDQA-MCMLE, MEDQA-USMLE, GAOKAO-Bench
 车载:
 ●InCA(InCA: Rethinking In-Car Conversational System Assessment Leveraging Large Language Models)
 ●LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs
 https://github.com/PurdueDigitalTwin/LaMPilot
 ●SuperCLUE-Auto
 汽车行业中文大模型测评基准,基于多轮开放式问题的细粒度评测
 排名榜单:https://www.superclueai.com/
 https://github.com/CLUEbenchmark/SuperCLUE-Auto
 上述几个都是论文为主。。。开源仓库是展示用,仅能做参考用
 Benchmark也可自定义
 1.2 LLM Evaluation数据集
 ●开源:
 开源Benchmark也包含LLM评测的数据集,这里的开源评测数据集一般指Benchmark中附带着开源的评测数据集。
 ●商业:
 https://hub.opencompass.org.cn/home
 ●自制:
 可根据选取的LLM Evaluation框架使用的评测集规则自制评测数据集。
1.3 加载模型方式
 加载模型权重或调用API评测
 1.4 评测方法
 客观评测
 做填空题、单选题、多选题
 主观评测
 开放式主观问答题
 人类或LLM对模型的回答进行打分
 长文本大海捞针(Needle In A Haystack)测试
 二、LLM Evaluation榜单
 国外:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/
 国内:https://rank.opencompass.org.cn/home
 车载:https://www.superclueai.com/
 三、LLM Evaluation框架
 Tips:
 前三个(OpenAI/Eval、lm-evaluation-harness、OpenCompass)工程性高,使用人数多,后面几个LLM评测框架偏向论文创新,可在写专利时参考思路,实用性、可运行性未知。OpenCompass中文社区强大,可参考资料多,可与其作者上海人工智能实验室团队进行沟通交流。VLMEvalKit为OpenCompass评测系列中的多模态大模型评测框架。
Idea:
 先使用OpenAI/Eval进行小规模数据的实验,然后选取lm-evaluation-harness或Opencompass进行本地部署。
3.1 OpenAI/Eval
 项目地址:https://github.com/openai/evals
 Tutorial:
 1.https://www.aidoczh.com/docs/openai_cookbook/examples/evaluation/Getting_Started_with_OpenAI_Evals/
 2.https://cookbook.openai.com/examples/evaluation/getting_started_with_openai_evals
 注:需在OpenAI Platform上用境外卡或apple充值购买api。
 3.2 lm-evaluation-harness
 项目地址:https://github.com/EleutherAI/lm-evaluation-harness
 Tutorial:
 https://zhuanlan.zhihu.com/p/671235487
 https://github.com/EleutherAI/lm-evaluation-harness/blob/main/docs/new_task_guide.md
 https://blog.csdn.net/qq_41185868/article/details/139787790
 3.3 OpenCompass
官网地址:https://opencompass.org.cn/home
 项目地址:https://github.com/open-compass/opencompass
 Tutorial:https://opencompass.readthedocs.io/zh-cn/latest/get_started/installation.html
 3.4 VLMEvalKit
 项目地址:https://github.com/open-compass/VLMEvalKit
 Tutorial:https://vlmevalkit.readthedocs.io/zh-cn/latest/
3.5 FreeEval
项目地址:
 https://github.com/WisdomShell/FreeEval
3.6 UltraEval
项目地址:https://github.com/OpenBMB/UltraEval
 3.7 Auto-Arena-LLMs
 Automating LLM Evaluations with Agent Peer-battles and Committee Discussions
 创新性的自动化评测工具,通过多种 LLM 代理之间的对战(peer-battles)和委员会讨论(committee discussions),全面评估 LLM 的能力。
 项目首页:
 https://auto-arena.github.io/
 项目地址:
 https://github.com/DAMO-NLP-SG/Auto-Arena-LLMs
三、LLM Evaluation论文
 LLM Evaluation综述性论文:
 https://arxiv.org/abs/2307.03109
 会议论文选集:
 https://mp.weixin.qq.com/s/wHqVVJToP18zgLzEizd3Tg
 InCA:
 ●https://arxiv.org/abs/2311.07469
 FreeEval:
 ●https://aclanthology.org/2024.emnlp-demo.1.pdf
 ●论文解读:https://zhuanlan.zhihu.com/p/13035659633
 UltraEval:https://arxiv.org/abs/2404.07584
LLM Evaluation 综述
Evaluation Guide Book
- Evaluation Guide Book
- 一文了解大模型性能评测数据、指标以及框架
1.1 LLM Evaluation Benchmark
知名开源
- CMMLU, MMLU, CEval, AGI-Eval, JEC-QA, MEDMCQA, MEDQA-MCMLE, MEDQA-USMLE, GAOKAO-Bench
车载
- InCA: InCA: Rethinking In-Car Conversational System Assessment Leveraging Large Language Models
- LaMPilot: LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs
- SuperCLUE-Auto: 汽车行业中文大模型测评基准,基于多轮开放式问题的细粒度评测 - GitHub
 
上述几个都是论文为主,开源仓库是展示用,仅能做参考用。Benchmark也可自定义。
1.2 LLM Evaluation 数据集
开源
- 开源Benchmark也包含LLM评测的数据集,这里的开源评测数据集一般指Benchmark中附带着开源的评测数据集。
商业
- OpenCompass
自制
- 可根据选取的LLM Evaluation框架使用的评测集规则自制评测数据集。
1.3 加载模型方式
- 加载模型权重或调用API评测
1.4 评测方法
客观评测
- 做填空题、单选题、多选题
主观评测
- 开放式主观问答题
- 人类或LLM对模型的回答进行打分
- 长文本大海捞针(Needle In A Haystack)测试
二、LLM Evaluation 榜单
- 国外: Open LLM Leaderboard
- 国内: OpenCompass Ranking
- 车载: SuperCLUE-Auto
三、LLM Evaluation 框架
Tips:
- 前三个(OpenAI/Eval、lm-evaluation-harness、OpenCompass)工程性高,使用人数多。
- 后面几个LLM评测框架偏向论文创新,可在写专利时参考思路,实用性、可运行性未知。
- OpenCompass中文社区强大,可参考资料多,可与其作者上海人工智能实验室团队进行沟通交流。
- VLMEvalKit为OpenCompass评测系列中的多模态大模型评测框架。
Idea:
- 先使用OpenAI/Eval进行小规模数据的实验,然后选取lm-evaluation-harness或OpenCompass进行本地部署。
3.1 OpenAI/Eval
- 项目地址: OpenAI/Eval
- Tutorial: - Getting Started with OpenAI Evals
- OpenAI Cookbook
 
注:需在OpenAI Platform上用境外卡或apple充值购买api。
3.2 lm-evaluation-harness
- 项目地址: lm-evaluation-harness
- Tutorial: - 知乎教程
- New Task Guide
- CSDN教程
 
3.3 OpenCompass
- 官网地址: OpenCompass
- 项目地址: OpenCompass GitHub
- Tutorial: OpenCompass 文档
3.4 VLMEvalKit
- 项目地址: VLMEvalKit
- Tutorial: VLMEvalKit 文档
3.5 FreeEval
- 项目地址: FreeEval
3.6 UltraEval
- 项目地址: UltraEval
3.7 Auto-Arena-LLMs
- Automating LLM Evaluations with Agent Peer-battles and Committee Discussions - 创新性的自动化评测工具,通过多种 LLM 代理之间的对战(peer-battles)和委员会讨论(committee discussions),全面评估 LLM 的能力。
 
- 项目首页: Auto-Arena-LLMs
- 项目地址: Auto-Arena-LLMs GitHub
四、LLM Evaluation 论文
LLM Evaluation 综述性论文
- arXiv: 2307.03109
会议论文选集
- 会议论文选集
InCA
- arXiv: 2311.07469
FreeEval
- ACL Anthology: 2024.emnlp-demo.1.pdf
- 论文解读
UltraEval
- arXiv: 2404.07584
五、LLM Evaluation 展望
- 面向AGI的评测体系设计
- 大模型动态评测自动化构建策略
- 复杂智能体评测系统
- 模型性能Scaling Law分析与探索
- 能力来源与泛化性分析
- 可靠的自动化主观评测
