当前位置: 首页 > wzjs >正文

网站东莞优化建设我想做代理

网站东莞优化建设,我想做代理,国内精美网站,招商加盟网站建设笔者最近在对比浏览各种大模型性能时,发现不少机构发布的大模型成绩不是那么详细。排行榜仅存在数据集和分数,对于大多数人来说,可能就看个分数高低就忽略了。因此,本文整理了一些常见的评测数据集和指标说明,希望对于普通读者有所帮助。 常见评测数据集 名称描述类别语言…

笔者最近在对比浏览各种大模型性能时,发现不少机构发布的大模型成绩不是那么详细。排行榜仅存在数据集和分数,对于大多数人来说,可能就看个分数高低就忽略了。因此,本文整理了一些常见的评测数据集和指标说明,希望对于普通读者有所帮助。

常见评测数据集

名称描述类别语言评估指标数量发布机构
MMLU一个涵盖 57 个主题的多项选择题基准,用于评估大规模语言模型的知识和推理能力。知识问答英语Accuracy15000University of California, Berkeley
MMLU ProMMLU 的专业级别版本,包含更具挑战性的问题,旨在评估模型在专业领域的理解和推理能力。知识问答英语Accuracy38500Berkeley Artificial Intelligence Research
GSM8K一个包含 8500 道小学数学题的基准,用于评估模型的数学推理能力。数学推理英语Accuracy8500Google
HumanEval一个包含 164 个手写编程问题的基准,用于评估模型生成代码的能力。代码生成英语Pass@k164OpenAI
MBPP一个包含 974 个简单的 Python 编程问题的基准,用于评估模型生成代码的能力。代码生成英语Pass@k974Google
HellaSwag一个包含 70,000 个多项选择题的基准,用于评估模型的常识推理能力。常识推理英语Accuracy70000University of Washington
ARC一个包含 7787 个多项选择题的基准,用于评估模型的常识推理能力。常识推理英语Accuracy7787Allen Institute for AI
TruthfulQA一个包含 817 个问题的基准,旨在评估模型是否能够生成真实且准确的答案,而不是编造信息。真实性评估英语Accuracy817Google
BIG-bench一个包含 200 多个不同任务的综合基准,用于评估模型的各种能力,包括推理、语言理解和知识。综合评估多语言Varies200Google
C-Eval一个涵盖人文社科、理工科等多个学科的中文多项选择题基准,用于评估模型在中文环境下的知识和推理能力。知识问答中文Accuracy13948清华大学等
SuperGLUE一个包含 8 个自然语言理解任务的基准,旨在评估模型在复杂的语言理解和推理任务上的性能。自然语言理解英语Varies8NYU & Facebook AI
DROP一个需要模型进行离散推理的阅读理解基准,包括计数、比较和排序等操作。阅读理解英语f196000Allen Institute for AI
MATH一个具有挑战性的数学问题数据集,包含代数、微积分、几何、概率等多个领域。数学推理英语Accuracy12500Google
BBHBIG-Bench 的困难子集,包含更具挑战性的任务,用于评估模型的极限能力。综合评估英语Varies23Google
HLE研究生水平以上的超高难度、覆盖超多学科的大模型评测基准知识问答英语Accuracy3000Center for AI Safety
GPQA Diamond测试模型在多种推理场景下的能力,并推动大模型在更加复杂任务上的改进。常识推理英语Accuracy
198CohereAI
SimpleQAOpenAI发布的一个针对大模型事实问答的能力评测基准,可以有效检验模型幻觉严重程度真实性评估英语Accuracy4326OpenAI
SWE-bench一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集代码生成英语Accuracy2294普林斯顿大学
SWE-bench VerifiedOpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测代码生成英语Accuracy500OpenAI
MATH-500OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准数学推理英语Accuracy500OpenAI

大模式日新月异,随着性能不断提升,老的数据集可能也会被逐步替换或淘汰,各种研究机构也会不断推出新的数据集。这里仅展示比较常见的一些数据集,用于研究学习使用,方便读者举一反三。

数据集示例及测试脚本

问答场景

以mmlu为例,该数据集是选择题,用于评估大规模语言模型的知识和推理能力,常用的字段为question,choices,answer

{"question": "Which of the following is a key function of the Golgi apparatus?","choices": ["A) ATP synthesis", "B) Protein modification and sorting", "C) DNA replication", "D) Lipid breakdown"],"answer": "B","subject": "biology","source": "https://example.com/bio_questions"
}

基于该数据集的测试代码,构造出一个prompt让模型从上下文选择答案。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import json
import numpy as np
from tqdm import tqdmclass ModelEvaluator:def __init__(self, model_name="mistralai/Mistral-7B-v0.1"):self.tokenizer = AutoTokenizer.from_pretrained(model_name)self.model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16,device_map="auto")def evaluate_mmlu(self, dataset_path):"""评估 MMLU 数据集"""correct = 0total = 0with open(dataset_path, 'r') as f:questions = json.load(f)for question in tqdm(questions):prompt = f"问题: {question['question']}\n选项:\nA. {question['choices'][0]}\nB. {question['choices'][1]}\nC. {question['choices'][2]}\nD. {question['choices'][3]}\n答案:"inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)outputs = self.model.generate(**inputs,max_new_tokens=5,temperature=0.1)response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)predicted_answer = response[-1]  # 取最后一个字符作为答案(假设模型只返回选项)if predicted_answer == question['answer']:correct += 1total += 1return correct / total

推理场景

以HellaSwag为例,该数据集也是选择题,主要用于评估模型的常识推理能力。常用的字段为ctx,endings,label

{"activity_label": "Removing ice from car","ctx": "Then, the man writes over the snow covering the window of a car, and a woman wearing winter clothes smiles. then","endings": [", the man adds wax to the windshield and cuts it.",", a person boards a ski lift, while two men support the head of the person...",", the man starts scraping ice off the car window with a scraper.",", the woman opens the car door and gets inside."],"label": 2,"source_id": 
http://www.dtcms.com/wzjs/817955.html

相关文章:

  • 网站开发过程中遇到的问题凡科建站怎样建站中站
  • 腾讯云网站建设视频网站的设计方法有哪些内容
  • 网站模板手机摄影网站设计图片
  • 建设个普通的网站得多少钱英德市住房和城乡建设局手机网站
  • 东莞网站设计开发技能大赛大连网站建设公司
  • 网站规划建设方案农业绿化风格做微信小程序需要什么技术
  • 站长统计官网汉南城乡建设局网站
  • 网站设计需求方案西安网络优化培训机构公司
  • 成都网站优化平台视觉传达毕业设计作品网站
  • 网站建设前端学什么语言天津做网站排名
  • 酒店网站建设策划找公司做网站运营怎么样
  • 常用个人网站淮北信息网官方
  • 美工在网站建设中的作用网站免费个人空间申请
  • 网站开发交流平台标志在线设计网站
  • ip域名查询石家庄网站优化公司
  • 北京最好的网站制作公司深圳市手机网站建设
  • 网页设计师专业培训揭阳seo网站管理
  • wordpress get style ui惠州百度推广排名优化
  • 购物商城网站建设方案做网站公司赚钱么
  • 网站建设企业类型是什么有了云服务器怎么做网站
  • 乔拓云智能建站wap网
  • 淮安市广德育建设网站google网站管理员中心
  • 大兴 网站建设wordpress软件著作权
  • 大规模301让网站快速排名百度百度网址大全
  • 个人虚拟网站粤嵌培训4个月收费
  • 简洁的网站建设合同肥西网站推广公司
  • delphi 做直播网站深圳市手机网站建设报价
  • 网站开发技术人员域名的作用是什么
  • 网站设置子目录个人网站的设计与开发
  • 网站设计第一步怎么做重庆seo入门教程