当前位置: 首页 > news >正文

自动跳转到wap网站wordpress宝塔安装环境

自动跳转到wap网站,wordpress宝塔安装环境,网站空间购买哪个好,中山企业推广网站制作项目概述 这是一个大规模的开源大语言模型评估项目,使用lm-evaluation-harness库对41个开源LLMs进行了19项基准测试。所有评估都在个人计算机上本地完成,展示了不同模型在各种任务中的性能表现。 评估框架 测试类别 基准测试分为三个主要类别&#x…

项目概述

这是一个大规模的开源大语言模型评估项目,使用lm-evaluation-harness库对41个开源LLMs进行了19项基准测试。所有评估都在个人计算机上本地完成,展示了不同模型在各种任务中的性能表现。

评估框架

测试类别

基准测试分为三个主要类别:

1. 推理与数学 (Reasoning & Math)
  • 任务: gsm8k, bbh, arc_challenge, anli_r1/r2/r3, gpqa_main_zeroshot
  • 评估指标: 精确匹配 (Exact match)、严格匹配 (strict match)、标准化准确率 (normalized accuracy) 等
2. 常识推理与自然语言推理 (Commonsense & Natural Language Inference, NLI)
  • 任务: hellaswag, piqa, winogrande, boolq, openbookqa, sciq, qnli
  • 评估指标: 标准化准确率 (Normalized accuracy)、准确率 (accuracy) 等
3. 知识与阅读理解 (Knowledge & Reading Comprehension)
  • 任务: mmlu, nq_open, drop, truthfulqa_mc1/mc2, triviaqa
  • 评估指标: 准确率 (Accuracy)、精确匹配 (exact match)、F1分数 (F1 score) 等

关键指标说明

模型命名规则

  • 格式:公司_模型名称
  • 量化模型标记:(8bit)

时间指标

  • 总时间 (Total Time): 系统完成所有基准测试的运行时间
  • GPU利用时间 (GPU Util Time): 等效RTX 5090 GPU在100%利用率下的时间

评分系统

  • 平均分 (Mean Score): 所有基准任务的算术平均值
  • 分数范围: 0-1,分数越高表示性能越好
  • 排名: 基于任务平均分计算

测试结果排行榜

总体排名 (前10名)

排名模型名称总时间GPU利用时间平均分
1google_gemma-3-12b-it15小时45分14小时8分0.6038
2Qwen_Qwen3-14B (8bit)29小时45分17小时29分0.5961
3openchat_openchat-3.6-8b-202405227小时51分6小时59分0.5871
4Qwen_Qwen3-8B15小时31分13小时44分0.5859
5Qwen_Qwen2.5-7B-Instruct9小时36分8小时33分0.5788
6Qwen_Qwen2.5-14B-Instruct (8bit)52小时44分29小时32分0.5775
701-ai_Yi-1.5-9B11小时43分10小时26分0.5676
8Qwen_Qwen2.5-7B-Instruct-1M11小时17分10小时10分0.5672
9meta-llama_Llama-3.1-8B-Instruct12小时19分10小时52分0.5653
1001-ai_Yi-1.5-9B-Chat13小时54分12小时15分0.5621

分类排名亮点

推理与数学性能排名 (前5名)
  1. google_gemma-3-12b-it (0.6266)
  2. Qwen_Qwen3-8B (0.6214)
  3. Qwen_Qwen3-14B (8bit) (0.586)
  4. Qwen_Qwen3-4B (0.5712)
  5. Qwen_Qwen2.5-7B-Instruct (0.5541)
常识推理与NLI排名 (前5名)
  1. Qwen_Qwen2.5-14B-Instruct (8bit) (0.7941)
  2. Qwen_Qwen3-14B (8bit) (0.7807)
  3. google_gemma-3-12b-it (0.7737)
  4. Qwen_Qwen2.5-7B-Instruct (0.773)
  5. openchat_openchat-3.6-8b-20240522 (0.7726)
知识与阅读理解排名 (前5名)
  1. 01-ai_Yi-1.5-9B (0.4369)
  2. openchat_openchat-3.6-8b-20240522 (0.4136)
  3. meta-llama_Llama-3.1-8B-Instruct (0.4127)
  4. 01-ai_Yi-1.5-6B (0.4063)
  5. mistralai_Mistral-7B-Instruct-v0.3 (0.4045)

主要发现

性能分析

  • Google Gemma-3-12B-IT 在总体排名中位居第一,在推理和数学任务中表现尤为出色
  • Qwen系列模型 在所有类别中都表现强劲,特别是在常识推理方面
  • Yi系列模型 在知识和阅读理解任务中表现优异
  • 量化模型 (8bit) 在显著减少计算资源需求的同时保持了良好的性能

效率分析

  • 较小的模型在某些特定任务中可以与更大的模型竞争
  • GPU利用时间与模型规模和复杂性呈正相关
  • 一些中等规模的模型展现出更好的性价比

项目资源消耗

  • 机器总运行时间: 18天8小时
  • 等效GPU时间: 14天23小时 (RTX 5090在100%利用率下)
  • 环境影响: 通过积极使用公共交通实现碳中和 😊

项目价值

这项综合评估为开源LLM社区提供了:

  1. 客观的性能比较基准
  2. 不同规模模型的效率分析
  3. 特定任务的模型选择指导
  4. 量化技术有效性的实证数据

该项目的完整数据、脚本和日志已开源,为研究人员和开发者提供了宝贵的参考资源。


数据来源: Hugging Face Spaces排行榜
文章来源: CurateClick

http://www.dtcms.com/a/489012.html

相关文章:

  • 阿里巴巴自助建站的一般流程家装设计师要学什么
  • 杭州市上城区建设局网站优秀产品vi设计手册
  • 杭州 平台 公司 网站建设今天上海出什么大事了
  • wordpress批量拿站如何对网站做渗透
  • 做网站多少钱角西宁君博特惠优秀的摄影作品网站
  • 网站建设课程设计论文动态表单的设计与实现
  • 兰山网站建设公司wordpress贴内幻灯片
  • 镇平建设局网站网站创建
  • 深圳网站建设系统线上推广团队
  • 网站开发工程师学什么网站建设需要提供的资料文档
  • 建网站的程序网站开发需要英语
  • 南阳专业做网站公司哪家好广告设计公司企业简介
  • 网站开发中常见的注册界面wordpress轮播图特效
  • 商洛网站开发公司类似淘宝网 的淘宝客网站模板
  • 微网站工程案例展示上海网页设计推荐
  • 做招工的网站排名微信app下载安装官方版2023
  • 成都网站建设 致尚阿里巴巴新网站怎么做运营
  • 杭州企业网站专业设计长沙待遇好的十大国企
  • 网站建设好评语上海嘉定区网站建设公司
  • 网站后台修改的页面不能显示头条网站怎么做的
  • wordpress网站更换空间商务网站内容建设包括
  • 深圳网站建设大全网站建设的公司这个
  • 主题网站设计与制作邢台网站制作公司
  • 重庆发布公众号seo优化是啥
  • wordpress站点名称的影响如何保存网站上的图片不显示图片
  • 网站特效怎么做的东莞网页设计与建设
  • 织梦网站如何做优化网站推广报告
  • 万基城市建设有限公司网站做营销网站那个好
  • 星Day-33 基础补充、建立简单神经网络
  • 自己个人网站后台怎么做白城北京网站建设