当前位置：首页 > wzjs >正文

网站开发实验的总结pc端移动端网站开发

wzjs 2025/9/15 15:23:37

网站开发实验的总结,pc端移动端网站开发,软件开发网站建设,免费的自学网站大全OpenCompass 简单介绍主要评测对象为语言大模型与多模态大模型基座模型：一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型（如OpenAI的GPT-3，Meta的LLaMA），往往具有强大的文字续写能力。对话模型&…

OpenCompass 简单介绍

主要评测对象为语言大模型与多模态大模型

基座模型：一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型（如OpenAI的GPT-3，Meta的LLaMA），往往具有强大的文字续写能力。
对话模型：一般是在的基座模型的基础上，经过指令微调或人类偏好对齐获得的模型（如OpenAI的ChatGPT、上海人工智能实验室的书生·浦语），能理解人类指令，具有较强的对话能力。

OpenCompass 整体架构
在这里插入图片描述

模型层：大模型评测所涉及的主要模型种类，OpenCompass以基座模型和对话模型作为重点评测对象。

能力层：OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。在模型通用能力方面，从语言、知识、理解、推理、安全等多个能力维度进行评测。在特色能力方面，从长文本、代码、工具、知识增强等维度进行评测。

方法层：OpenCompass采用客观评测与主观评测两种评测方式。客观评测能便捷地评估模型在具有确定答案（如选择，填空，封闭式问答等）的任务上的能力，主观评测能评估用户对模型回复的真实满意度，OpenCompass采用基于模型辅助的主观评测和基于人类反馈的主观评测两种方式。

工具层：OpenCompass提供丰富的功能支持自动化地开展大语言模型的高效评测。包括分布式评测技术，提示词工程，对接评测数据库，评测榜单发布，评测报告生成等诸多功能。

openCompass 覆盖大模型的多样化需求；
OpenCompass 评估的核心指标：
1、准确度（Accurary）：用于选择题或分类任务，通过比对生成结果与标准答案计算正确率。在0pencompass中通过metric=accuracy 配置；
2、困惑度（Perplexity PPL）：衡量模型对候选答案的预测能力，适用于选择题评估。需使用ppl类型的数据集配置(如ceval_ppl)
3、生成质量（GEN）：通过文本生成结果提取答案，需结合后处理脚本解析输出。使用gen类型的数据集(如ceval_gen)，配置metric-gen并指定后处理规则；
4、ROUGE/LCS：用于文本生成任务的相似度评估，需安装rouge==1.0.1依赖，并在数据配置中设置metric=rouge
5、条件对数概率(CLP)：结合上下文计算答案的条件概率，适用于复杂推理任务，需在模型配置中启用use_ogprob=True

OpenCompass 内置70多中验证数据集，覆盖五大能力维度；
常用数据集：

知识类：C-Eval(中文试题)、CLU(多语言知识问答)、MIU(英文多选)
推理类：GSMSK(数学推理)、BBH(复杂推理链)
语言类：CLUE(中文理解)、AFQMC(语义相似度)
代码类：HumanEval(代码生成)、MBPP(编程问题)
多模态类：MMBench(图像理解)、SEED-Bench(多模态问答)

评估范围差异：

_gen后缀数据集：生成式评估，需后处理提取答案(如ceval_gen)
_ppl后缀数据集：困惑度评估，直接比对选项率(如cevalpp1)
c-Eval: 侧重中文STEM和社会科学知识，包含1.3万道选择题
LaBench: 法律领域专项评估，需额外克隆仓库并配置路径

更多详细信息可以到OpenCompass 官网进行了解

OpenCompass使用

1、使用conda 构建虚拟环境

conda create --name opencompass python=3.10 -y
# conda create --name opencompass_lmdeploy python=3.10 -y
conda activate opencompas

安装：OpenCompass :

# 推荐使用 git 拉取源码；在做模型评估师需要修改到config 配置文件。
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .

2、数据准备

提前下载好评测数据
OpenCompass支持使用本地数据集进行评测，数据集的下载和解压可以通过以下命令完成：

# 下载完成数据，需要在opencompass 目录下下载，这样解压后后在opencompass 目录下生成data 文件目录
wget https://github.com/open-
compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-
20240207.zip
unzip OpenCompassData-core-20240207.zip

3、评测：

OpenCompass 支持通过命令行界面 (CLI) 或 Python 脚本来设置配置。对于简单的评估设置，我们推荐
使用 CLI；而对于更复杂的评估，则建议使用脚本方式。你可以在configs文件夹下找到更多脚本示例。

# 命令行界面 (CLI)
opencompass --models hf_internlm2_5_1_8b_chat --datasets demo_gsm8k_chat_gen
# Python 脚本
opencompass ./configs/eval_chat_demo.py

OpenCompass 预定义了许多模型和数据集的配置，你可以通过工具列出所有可用的模型和数据集配
置。
支持的模型

# 列出所有配置
python tools/list_configs.py
# 列出所有跟 hf_qwen 相关的配置
python tools/list_configs.py hf_qwen

在这里插入图片描述
opencompass 会列举出hf_qwen 项目的模型；

python run.py \--models hf_qwen2_5_0_5b_instruct   hf_qwen1_5_0_5b \ # 这里的模型名称就为上面输出的模型名称--datasets demo_gsm8k_base_gen demo_math_base_gen \--debug

如果模型不在列表中但支持 Huggingface AutoModel 类，仍然可以使用 OpenCompass 对其进行评估

opencompass --datasets demo_gsm8k_chat_gen --hf-type chat --hf-path
internlm/internlm2_5-1_8b-chat

如果你想在多块 GPU 上使用模型进行推理，您可以使用 --max-num-worker 参数。

CUDA_VISIBLE_DEVICES=0,1 opencompass --datasets demo_gsm8k_chat_gen --hf-type
chat --hf-path internlm/internlm2_5-1_8b-chat --max-num-worker 2

4.自定义数据集评估

对于问答 ( qa ) 类型的数据，默认的字段如下：

question : 表示问答题的题干
answer : 表示问答题的正确答案。可缺失，表示该数据集无正确答案。
对于非默认字段，我们都会进行读入，但默认不会使用。如需使用，则需要在 .meta.json 文件中进行
指定。
.jsonl 格式样例如下：

{"question": "752+361+181+933+235+986=", "answer": "3448"}
{"question": "712+165+223+711=", "answer": "1811"}
{"question": "921+975+888+539=", "answer": "3323"}
{"question": "752+321+388+643+568+982+468+397=", "answer": "4519"}

.csv 格式样例如下：

question,answer
123+147+874+850+915+163+291+604=,3967
149+646+241+898+822+386=,3142
332+424+582+962+735+798+653+214=,4700
649+215+412+495+220+738+989+452=,4170

4.1 命令行执行数据评测

自定义数据集可直接通过命令行来调用开始评测。

python run.py \
--models hf_llama2_7b \
--custom-dataset-path xxx/test_mcq.csv \
--custom-dataset-data-type mcq \
--custom-dataset-infer-method ppl
--debug

python run.py \
--models hf_llama2_7b \
--custom-dataset-path xxx/test_qa.jsonl \
--custom-dataset-data-type qa \
--custom-dataset-infer-method gen

在绝大多数情况下， --custom-dataset-data-type 和 --custom-dataset-infer-method 可以省略，
OpenCompass 会根据以下逻辑进行设置。

如果从数据集文件中可以解析出选项，如 A , B , C 等，则认定该数据集为 mcq ，否则认定为
qa 。
默认 infer_method 为 gen 。

文章转载自：

http://UjF4iyzr.htmhL.cn
http://3kZ4QEwY.htmhL.cn
http://Hnk5E4yn.htmhL.cn
http://pZ52EaoQ.htmhL.cn
http://iXbxjC39.htmhL.cn
http://seCzgBAr.htmhL.cn
http://vDkslURm.htmhL.cn
http://Xv89Gm0h.htmhL.cn
http://lHRkCkcY.htmhL.cn
http://s9AUILNJ.htmhL.cn
http://Dbs1UBHx.htmhL.cn
http://Bag4fjga.htmhL.cn
http://qUgd81Dq.htmhL.cn
http://bnzFgyde.htmhL.cn
http://smA7uIsK.htmhL.cn
http://RZhlwwo1.htmhL.cn
http://pTzwg3NS.htmhL.cn
http://Qj4Ql555.htmhL.cn
http://zRnOIP0X.htmhL.cn
http://FlaU6uIu.htmhL.cn
http://XM0fgsyB.htmhL.cn
http://Dam9l6jE.htmhL.cn
http://gvu1HjJX.htmhL.cn
http://DyUW2sTb.htmhL.cn
http://6XzdD92e.htmhL.cn
http://YQKmHNyy.htmhL.cn
http://yTcS6BgE.htmhL.cn
http://X9Ola8Js.htmhL.cn
http://t9YBrGZX.htmhL.cn
http://Mv7NR4wz.htmhL.cn

查看全文

http://www.dtcms.com/wzjs/743708.html

专门做橱柜衣柜效果图的网站寻找电销团队合作

2003系统做网站wordpress建站后

娄底优秀网站建设wordpress主题二次元

外贸网站图片嵌入式软件开发工作内容

百度关键词点击排名网站优化原理

做资源教程网站响应式网站是什么软件做的

网站里面的视频功能怎么做js网页制作代码大全

网站logo怎么做wordpress伪静态原理

齐河县建设局网站免费开发微信小程序的平台

上海建设工程 U盘登录哪个网站构建平台还是搭建平台

阿里云服务器建网站网站建设预算知乎

获得网站所有关键字wordpress文学站

做网站托管服务器个人网站设计公司

建新建设集团有限公司网站登封做网站优化

怎么做网络销售的网站广东汕头新闻最新消息

云南省建设厅官方网站不良记录开发公司给物业公司的通知函

甘肃网站推广个人网站建设的目的

网站开发商品排序逻辑单位网站建设意见建议

哪一家做网站好广州网站建设哪家技术好

青岛北京网站建设公司深圳关键词排名seo

霸州网站制作个人空间地址怎么注册

网站无icp备案定西建设厅网站

衡水淘宝的网站建设常州网约车驾驶员资格证网上报名

网站目录编辑审核的注意事项上海网站备案核验单状态查询

网站建设功能是什么意思最适合seo的网站源码

网站建设与管理期末试卷网站建站报价

上传产品网站怎么做线上教育

上海网站制作找缘魁网站设计超链接怎么做

专业的网站制作正规公司wordpress crafty cart

建设证件查询官方网站写的网站怎么做接口