当前位置: 首页 > wzjs >正文

如何建设一个静态网站6徐州seo推广

如何建设一个静态网站6,徐州seo推广,网站源代码下载,设计本质笔者最近在对比浏览各种大模型性能时,发现不少机构发布的大模型成绩不是那么详细。排行榜仅存在数据集和分数,对于大多数人来说,可能就看个分数高低就忽略了。因此,本文整理了一些常见的评测数据集和指标说明,希望对于普通读者有所帮助。 常见评测数据集 名称描述类别语言…

笔者最近在对比浏览各种大模型性能时,发现不少机构发布的大模型成绩不是那么详细。排行榜仅存在数据集和分数,对于大多数人来说,可能就看个分数高低就忽略了。因此,本文整理了一些常见的评测数据集和指标说明,希望对于普通读者有所帮助。

常见评测数据集

名称描述类别语言评估指标数量发布机构
MMLU一个涵盖 57 个主题的多项选择题基准,用于评估大规模语言模型的知识和推理能力。知识问答英语Accuracy15000University of California, Berkeley
MMLU ProMMLU 的专业级别版本,包含更具挑战性的问题,旨在评估模型在专业领域的理解和推理能力。知识问答英语Accuracy38500Berkeley Artificial Intelligence Research
GSM8K一个包含 8500 道小学数学题的基准,用于评估模型的数学推理能力。数学推理英语Accuracy8500Google
HumanEval一个包含 164 个手写编程问题的基准,用于评估模型生成代码的能力。代码生成英语Pass@k164OpenAI
MBPP一个包含 974 个简单的 Python 编程问题的基准,用于评估模型生成代码的能力。代码生成英语Pass@k974Google
HellaSwag一个包含 70,000 个多项选择题的基准,用于评估模型的常识推理能力。常识推理英语Accuracy70000University of Washington
ARC一个包含 7787 个多项选择题的基准,用于评估模型的常识推理能力。常识推理英语Accuracy7787Allen Institute for AI
TruthfulQA一个包含 817 个问题的基准,旨在评估模型是否能够生成真实且准确的答案,而不是编造信息。真实性评估英语Accuracy817Google
BIG-bench一个包含 200 多个不同任务的综合基准,用于评估模型的各种能力,包括推理、语言理解和知识。综合评估多语言Varies200Google
C-Eval一个涵盖人文社科、理工科等多个学科的中文多项选择题基准,用于评估模型在中文环境下的知识和推理能力。知识问答中文Accuracy13948清华大学等
SuperGLUE一个包含 8 个自然语言理解任务的基准,旨在评估模型在复杂的语言理解和推理任务上的性能。自然语言理解英语Varies8NYU & Facebook AI
DROP一个需要模型进行离散推理的阅读理解基准,包括计数、比较和排序等操作。阅读理解英语f196000Allen Institute for AI
MATH一个具有挑战性的数学问题数据集,包含代数、微积分、几何、概率等多个领域。数学推理英语Accuracy12500Google
BBHBIG-Bench 的困难子集,包含更具挑战性的任务,用于评估模型的极限能力。综合评估英语Varies23Google
HLE研究生水平以上的超高难度、覆盖超多学科的大模型评测基准知识问答英语Accuracy3000Center for AI Safety
GPQA Diamond测试模型在多种推理场景下的能力,并推动大模型在更加复杂任务上的改进。常识推理英语Accuracy
198CohereAI
SimpleQAOpenAI发布的一个针对大模型事实问答的能力评测基准,可以有效检验模型幻觉严重程度真实性评估英语Accuracy4326OpenAI
SWE-bench一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集代码生成英语Accuracy2294普林斯顿大学
SWE-bench VerifiedOpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测代码生成英语Accuracy500OpenAI
MATH-500OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准数学推理英语Accuracy500OpenAI

大模式日新月异,随着性能不断提升,老的数据集可能也会被逐步替换或淘汰,各种研究机构也会不断推出新的数据集。这里仅展示比较常见的一些数据集,用于研究学习使用,方便读者举一反三。

数据集示例及测试脚本

问答场景

以mmlu为例,该数据集是选择题,用于评估大规模语言模型的知识和推理能力,常用的字段为question,choices,answer

{"question": "Which of the following is a key function of the Golgi apparatus?","choices": ["A) ATP synthesis", "B) Protein modification and sorting", "C) DNA replication", "D) Lipid breakdown"],"answer": "B","subject": "biology","source": "https://example.com/bio_questions"
}

基于该数据集的测试代码,构造出一个prompt让模型从上下文选择答案。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import json
import numpy as np
from tqdm import tqdmclass ModelEvaluator:def __init__(self, model_name="mistralai/Mistral-7B-v0.1"):self.tokenizer = AutoTokenizer.from_pretrained(model_name)self.model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16,device_map="auto")def evaluate_mmlu(self, dataset_path):"""评估 MMLU 数据集"""correct = 0total = 0with open(dataset_path, 'r') as f:questions = json.load(f)for question in tqdm(questions):prompt = f"问题: {question['question']}\n选项:\nA. {question['choices'][0]}\nB. {question['choices'][1]}\nC. {question['choices'][2]}\nD. {question['choices'][3]}\n答案:"inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)outputs = self.model.generate(**inputs,max_new_tokens=5,temperature=0.1)response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)predicted_answer = response[-1]  # 取最后一个字符作为答案(假设模型只返回选项)if predicted_answer == question['answer']:correct += 1total += 1return correct / total

推理场景

以HellaSwag为例,该数据集也是选择题,主要用于评估模型的常识推理能力。常用的字段为ctx,endings,label

{"activity_label": "Removing ice from car","ctx": "Then, the man writes over the snow covering the window of a car, and a woman wearing winter clothes smiles. then","endings": [", the man adds wax to the windshield and cuts it.",", a person boards a ski lift, while two men support the head of the person...",", the man starts scraping ice off the car window with a scraper.",", the woman opens the car door and gets inside."],"label": 2,"source_id": 
http://www.dtcms.com/wzjs/96626.html

相关文章:

  • 网站安全建设 应用开发广告联盟怎么赚钱
  • 建邺网站建设最受欢迎的十大培训课程
  • 免费素材库网站app拉新一手渠道
  • 云南固恒建设集团有限公司网站新东方在线教育平台官网
  • wordpress外观自定义优化seo软件
  • 官网设计制作合肥seo优化排名公司
  • 汕头高端模板建站构建新发展格局
  • 相册网站模板百度搜索结果
  • 武汉网站建设服务长春网站开发
  • 西安模板建网站今天宣布疫情最新消息
  • 网站开发要什么软件关键词权重如何打造
  • 网站数据库建设方案欧洲网站服务器
  • 高防服务器租用深圳seo排名
  • 吉林做网站的公司文案写作软件app
  • 太原网站制作好吗青岛seo网站建设公司
  • 政府网站开发多钱抖音关键词排名查询工具
  • 结构设计在哪个网站接单兼职做重庆网站关键词排名
  • 域名交易网站郑州网络营销公司哪个好
  • 郑州官网seo页面优化算法
  • 建设一个网站的费用seo网站是什么意思
  • 免费网站在线观看人数在哪买东莞营销网站建设
  • 北京企业网站seo长沙网络营销公司
  • 沈阳专业网站建设公司网站注册查询
  • 做网站售后几年营销软文范例大全300
  • 网站如何交换链接免费网站排名优化软件
  • 动态网站建设网百度搜首页
  • 邢台专业网站建设公司上海百度seo点击软件
  • 做摄影网站的公司免费seo营销优化软件下载
  • 网站banner切换百度云盘登录
  • wordpress nas关键词优化按天计费