当前位置：首页 > news >正文

41个开源大语言模型基准测试报告

news 2025/9/10 10:28:57

项目概述

这是一个大规模的开源大语言模型评估项目，使用lm-evaluation-harness库对41个开源LLMs进行了19项基准测试。所有评估都在个人计算机上本地完成，展示了不同模型在各种任务中的性能表现。

评估框架

测试类别

基准测试分为三个主要类别：

1. 推理与数学 (Reasoning & Math)

任务: gsm8k, bbh, arc_challenge, anli_r1/r2/r3, gpqa_main_zeroshot
评估指标: 精确匹配 (Exact match)、严格匹配 (strict match)、标准化准确率 (normalized accuracy) 等

2. 常识推理与自然语言推理 (Commonsense & Natural Language Inference, NLI)

任务: hellaswag, piqa, winogrande, boolq, openbookqa, sciq, qnli
评估指标: 标准化准确率 (Normalized accuracy)、准确率 (accuracy) 等

3. 知识与阅读理解 (Knowledge & Reading Comprehension)

任务: mmlu, nq_open, drop, truthfulqa_mc1/mc2, triviaqa
评估指标: 准确率 (Accuracy)、精确匹配 (exact match)、F1分数 (F1 score) 等

关键指标说明

模型命名规则

格式：公司_模型名称
量化模型标记：(8bit)

时间指标

总时间 (Total Time): 系统完成所有基准测试的运行时间
GPU利用时间 (GPU Util Time): 等效RTX 5090 GPU在100%利用率下的时间

评分系统

平均分 (Mean Score): 所有基准任务的算术平均值
分数范围: 0-1，分数越高表示性能越好
排名: 基于任务平均分计算

测试结果排行榜

总体排名 (前10名)

排名	模型名称	总时间	GPU利用时间	平均分
1	google_gemma-3-12b-it	15小时45分	14小时8分	0.6038
2	Qwen_Qwen3-14B (8bit)	29小时45分	17小时29分	0.5961
3	openchat_openchat-3.6-8b-20240522	7小时51分	6小时59分	0.5871
4	Qwen_Qwen3-8B	15小时31分	13小时44分	0.5859
5	Qwen_Qwen2.5-7B-Instruct	9小时36分	8小时33分	0.5788
6	Qwen_Qwen2.5-14B-Instruct (8bit)	52小时44分	29小时32分	0.5775
7	01-ai_Yi-1.5-9B	11小时43分	10小时26分	0.5676
8	Qwen_Qwen2.5-7B-Instruct-1M	11小时17分	10小时10分	0.5672
9	meta-llama_Llama-3.1-8B-Instruct	12小时19分	10小时52分	0.5653
10	01-ai_Yi-1.5-9B-Chat	13小时54分	12小时15分	0.5621

分类排名亮点

推理与数学性能排名 (前5名)

google_gemma-3-12b-it (0.6266)
Qwen_Qwen3-8B (0.6214)
Qwen_Qwen3-14B (8bit) (0.586)
Qwen_Qwen3-4B (0.5712)
Qwen_Qwen2.5-7B-Instruct (0.5541)

常识推理与NLI排名 (前5名)

Qwen_Qwen2.5-14B-Instruct (8bit) (0.7941)
Qwen_Qwen3-14B (8bit) (0.7807)
google_gemma-3-12b-it (0.7737)
Qwen_Qwen2.5-7B-Instruct (0.773)
openchat_openchat-3.6-8b-20240522 (0.7726)

知识与阅读理解排名 (前5名)

01-ai_Yi-1.5-9B (0.4369)
openchat_openchat-3.6-8b-20240522 (0.4136)
meta-llama_Llama-3.1-8B-Instruct (0.4127)
01-ai_Yi-1.5-6B (0.4063)
mistralai_Mistral-7B-Instruct-v0.3 (0.4045)

主要发现

性能分析

Google Gemma-3-12B-IT 在总体排名中位居第一，在推理和数学任务中表现尤为出色
Qwen系列模型 在所有类别中都表现强劲，特别是在常识推理方面
Yi系列模型 在知识和阅读理解任务中表现优异
量化模型 (8bit) 在显著减少计算资源需求的同时保持了良好的性能

效率分析

较小的模型在某些特定任务中可以与更大的模型竞争
GPU利用时间与模型规模和复杂性呈正相关
一些中等规模的模型展现出更好的性价比

项目资源消耗

机器总运行时间: 18天8小时
等效GPU时间: 14天23小时 (RTX 5090在100%利用率下)
环境影响: 通过积极使用公共交通实现碳中和 😊

项目价值

这项综合评估为开源LLM社区提供了：

客观的性能比较基准
不同规模模型的效率分析
特定任务的模型选择指导
量化技术有效性的实证数据

该项目的完整数据、脚本和日志已开源，为研究人员和开发者提供了宝贵的参考资源。

数据来源: Hugging Face Spaces排行榜
文章来源: CurateClick

文章转载自：

http://F0ugR3Vl.sthgm.cn
http://9ZvR0QdH.sthgm.cn
http://O0z1EAMU.sthgm.cn
http://sPvpU9Ny.sthgm.cn
http://EflsIPA9.sthgm.cn
http://IwGmVrtP.sthgm.cn
http://ECQyiG1c.sthgm.cn
http://zJKUZGMX.sthgm.cn
http://Mc8m29DC.sthgm.cn
http://1OlGr3P7.sthgm.cn
http://BHqaLgX0.sthgm.cn
http://8mPh8nnT.sthgm.cn
http://7rhIJ7QV.sthgm.cn
http://vHNYeJrY.sthgm.cn
http://GMxCE9wB.sthgm.cn
http://wiNzonrx.sthgm.cn
http://1wcSqLIw.sthgm.cn
http://kdXLKEjd.sthgm.cn
http://TMWzleDk.sthgm.cn
http://XNLQsZSw.sthgm.cn
http://3wQRI6yF.sthgm.cn
http://qihHyAh4.sthgm.cn
http://9Kjy0CVb.sthgm.cn
http://HZ9kpUf2.sthgm.cn
http://VktZgDio.sthgm.cn
http://WfeSX1fp.sthgm.cn
http://sxkCzxjE.sthgm.cn
http://FBMxrGqe.sthgm.cn
http://8eAXCPfj.sthgm.cn
http://87YnkTfl.sthgm.cn

http://www.dtcms.com/a/371459.html

相关文章：

unsloth 笔记：从最近的检查点继续微调

区域导航系统｜印度区域卫星导航系统（IRNSS/NavIC）深度解析

Linux服务器资源自动监控与报警脚本详解

社交新零售时代本地化微商的发展路径研究——基于开源AI智能名片链动2+1模式S2B2C商城小程序源的创新实践

Tailwind CSS v4 终极指南：体验 Rust 驱动的闪电般性能与现代化 CSS 工作流

模块--红外跟随避障模块

使用MQTT.fx和ESP32连接Onenet平台

功率器件固晶挑战：抗高温翘曲治具提升IGBT焊接强度30%

Text2Sql.Net架构深度解析：从自然语言到SQL的智能转换之道

UE5 基础应用 —— 10 - 控制台命令

Linux内核Syncookies机制：抵御SYN Flood攻击的坚实防线

Axum 最佳实践：如何构建优雅的 Rust 错误处理系统？（三）

使用 nginx-module-vts 进行 Nginx 流量监控

心路历程-Linux如何赋予权限？

实验室服务器配置｜通过Docker实现Linux系统多用户隔离与安全防控

QProxyStyle类中drawControl和drawComplexControl函数的区别是什么

【Linux手册】管道通信：从内核底层原理到使用方法

LeetCode 几道 Promises 和 Time 的题目

狂想-机器人触感阵列理论验证方案

Unity 塔防自用可视化路点寻路编辑器

HTML 中的 CSS 使用说明

STEM背景下人工智能素养框架的研究

音频驱动数字人人脸模型

深入理解 `std::string_view`：现代 C++ 中的高效字符串处理工具

[论文阅读] 人工智能 + 软件工程 | 首个仓库级多任务调试数据集！RepoDebug揭秘LLM真实调试水平

数据结构：单链表以及链表题

谷歌Genie 3：让你的照片变成可以玩的游戏世界

如何终止画图

shell脚本练习

Coze源码分析-资源库-删除插件-前端源码-总结