当前位置: 首页 > news >正文

坑梓网站建设如何百度认证号码平台

坑梓网站建设如何,百度认证号码平台,你好多莉 wordpress,苏州网站seo服务接上文,本地配置Open-R1,用蒸馏量化版本DeepSeek-R1-distill-Qwen跑AIME2024评测失败了。想了半天,把本地环境全推了不可能,配docker又不太方便。不死心翻了翻最近配的4090机器,发现驱动刚好装了最新的,能够…

接上文,本地配置Open-R1,用蒸馏量化版本DeepSeek-R1-distill-Qwen跑AIME2024评测失败了。想了半天,把本地环境全推了不可能,配docker又不太方便。不死心翻了翻最近配的4090机器,发现驱动刚好装了最新的,能够支持CUDA12.4。

还好,失败了没有恼羞成怒的删了env和代码,赶紧打包放到这台机器上,改了几个路径问题,激活环境,调用torch和vllm都可以。

又开始跑测试脚本,第一个是解决离线无法下载模型和数据的事情。模型的话,因为之前介绍提到的,已经下载并测试了一般问题回答,因此,直接传到这个机器,修改模型路径MODEL即可。数据的话,要修改到./src/open-r1/evaluation.py中的LightevalTaskConfig中的hf_repo,改成本地路径就行,后面再看怎么传参数进去。按照repo把数据下回来,改好路径。

再次执行测试脚本,终于还是又出错了,RuntimeError: expected scalar type Half but found BFloat16。

MODEL=deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
MODEL_ARGS="pretrained=$MODEL,dtype=bfloat16,max_model_length=32768,gpu_memory_utilisation=0.8"
OUTPUT_DIR=data/evals/$MODEL# AIME 2024
TASK=aime24
lighteval vllm $MODEL_ARGS "custom|$TASK|0|0" \--custom-tasks src/open_r1/evaluate.py \--use-chat-template \--output-dir $OUTPUT_DIR

原来是脚本里面的dtype问题,改成half和float16都行。但是,后面要是跑Q8及其他量化时,那是不是还是默认要转到float16或者bfloat16?那岂不是,只节省了存储,而不节省计算和带宽。要是性能再不好,那真是特别的好处了。

模型

AIME2024

@1 [6]

MATH500

@1 [7]

o1-mini [1]63.690.0
DeepSeek-R1-671B [1]79.897.3

DeepSeek-R1-distill-Qwen-1.5B [1]

28.983.9

DeepSeek-R1-distill-Qwen-7B [1]

55.592.8

DeepSeek-R1-distill-Qwen-32B [1]

72.694.3
Open-R1-1.5B [2]-81.2
Open-R1-7B [2]-91.8
Open-R1-32B [2]-95.0
bartowski/DeepSeek-R1-distill-Qwen-1.5B-f16 *23.368.8
bartowski/DeepSeek-R1-distill-Qwen-7B-Q8 *53.392.2
bartowski/DeepSeek-R1-distill-Qwen-32B-Q8 *70.095.6

表中数据来源,如下文献[1]和[2]。*号是编译Open-R1后,利用bartowski [3][4][5]中的蒸馏量化模型,在AIME2024和MATH500进行测试得到的。对比看,1.5B的性能差距是最大的,不知道是不是f16模型的问题?后面还得再check一遍。7B和32B,相比文[1]中的数据比较接近。后面还得再把DeepSeek自己提供的模型都测试一下。从模型大小看,应该是提供的FP16版本。

因此,整体上看,网络上提供的蒸馏模型还是基本可用的。如果是自己用LM studio跑着完,那1.5B模型就基本够用了。再加上,现在知乎、微信等等都接入了DeepSeek,当然这俩都是做的RAG,利用自己的数据,从回答上能明显看出来。同时,DeepSeek app目前也没有出现服务器忙的现象。

接下来,用LM Studio试试其他模型,比如llava,Mistral,Janus,Qwen2.5/-Instruct/-VL。还可以考虑把加载图片结合上DeepSeek-R1做题,以及图像生成模型。

 [1] DeepSeek-AI. DeepSeek_R1_Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. GitHub - deepseek-ai/DeepSeek-R1

[2] https://github.com/huggingface/open-r1

[3] https://huggingface.co/bartowski/DeepSeek-R1-Distill-Qwen-1.5B-GGUF

[4] https://huggingface.co/bartowski/DeepSeek-R1-Distill-Qwen-7B-GGUF

[5] https://huggingface.co/bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF

[6] https://huggingface.co/datasets/HuggingFaceH4/aime_2024

[7] HuggingFaceH4/MATH-500 · Datasets at HF Mirror

http://www.dtcms.com/a/433427.html

相关文章:

  • 深圳做网站公司有哪些企业深圳有几个燃气公司
  • 网站空间数据库地宝网招聘信息网
  • layui响应式网站开发教程wordpress主题模板视频网站
  • 赣州那里有做网站的公司手机app制作多少钱
  • 什么是网站实施网站开发常用jquery插件
  • 建设网站服务器选择wordpress登录去不了后台
  • 自然人做音频网站违法吗越秀金融大厦地址
  • 简洁的公司网站wordpress 分类名
  • 设计有哪些网站一级a做爰片i免费网站
  • 网站开发实训报告总结吉安永新哪里做网站
  • 昆明做网站的wordpress 论坛 小程序
  • 网站开发需求模板列表网网站建设
  • 交互设计好的网站人力资源培训机构
  • 做网站写页面多少钱海外浏览器
  • 网站渠道建设比较火的推广软件
  • 在线设计外卖平台店招石家庄seo网站优化电话
  • 网站结构 网站内容建设杭州租车网站建设
  • wordpress 大型网站一米八效果图网站
  • 手机网站制作费网页设计的基本原则是什么
  • 个人微网站怎么做网络服务是什么
  • 网站建设需求登记表 免费下载wordpress动态标签
  • 文化建设 设计公司网站做相册哪个网站好用吗
  • 怎样建网站 阿里云如何检测网站是否安全
  • 凯里网络公司建设网站一般通过什么查看天气预报
  • 优惠券网站怎么搭建做移动网站优化优
  • 做网站该去哪找客户高级网站开发
  • 学生网站建设可行性分析用php做的网站软件
  • 北京seo课程温州优化推广
  • 用什么做网站开发聊城网站设计公司
  • 精准扶贫网站建设的意义丫丫影院