当前位置: 首页 > wzjs >正文

南通城乡建设局网站住房和城乡建设部网站 投诉

南通城乡建设局网站,住房和城乡建设部网站 投诉,网站icp备案号怎么查,wordpress地区分站本文基于下面的文章进行在探索,请最好先阅读下面文章。 超详细VLLM框架部署qwen3-4B加混合推理探索!!!-CSDN博客 一、模型选择和下载 通义千问3-8B-FP8 模型库 modelscope download --model Qwen/Qwen3-8B --local_dir /root/l…

本文基于下面的文章进行在探索,请最好先阅读下面文章。

超详细VLLM框架部署qwen3-4B加混合推理探索!!!-CSDN博客

一、模型选择和下载

通义千问3-8B-FP8 · 模型库

modelscope download --model Qwen/Qwen3-8B --local_dir /root/lanyun-tmp/modle/Qwen3-8B

modelscope download --model Qwen/Qwen3-4B --local_dir /root/lanyun-tmp/modle/Qwen3-4B

modelscope download --model Qwen/Qwen3-8B-FP8 --local_dir /root/lanyun-tmp/modle/Qwen3-8B-FP8

我的云服务器

二、模型的说明

 2.1 这三个模型有什么区别?

这里就需要知道大模型是什么?大模型本质上是一堆浮点数数字组成的矩阵,可以在模型的配置中看到。比如Qwen3-8B的8B是指,这个矩阵的浮点数字有80亿个,而每个参数(浮点数字)又是bfloat16的。可以简单理解成,模型的能力 = 模型参数量 * 模型的精度,但是模型的精度的影响较小,比如参数圆周率,精度是16位小数还是8位小数,对于我们计算圆的面积来说,误差是差不多的。但是16位的参数圆周率,我们计算的难度就会更大(显存消耗大),但是精度也会更精确。

所以Qwen3-8B等价于Qwen3-8B-FP16,Qwen3-4B等价于Qwen3-4B-FP16,我们把模型的每个参数的精度都从16位变成8位的过程就叫模型量化,我们一方面可以用模型微调框架LLama-factory进行模型量化,另一方面也可以直接在魔塔社区下载别人已经量化压缩好的模型Qwen3-8B-FP8

三、VLLM框架推理三个模型的显存消耗情况

显存怎么计算看一看前面的博客如何计算VLLM本地部署Qwen3-4B的GPU最小配置应该是多少?多人并发访问本地大模型的GPU配置应该怎么分配?-CSDN博客

情况一:Qwen3-8B-FP8:8.8GB+2.8GB = 11.6GB显存

vllm serve /root/lanyun-tmp/modle/Qwen3-8B-FP8 --max-model-len 10000

情况二: Qwen3-8B:15.2GB+1.3GB = 16.5GB显存

vllm serve /root/lanyun-tmp/modle/Qwen3-8B --max-model-len 10000

情况二: Qwen3-4B:7.55GB+1.3GB = 8.85GB显存

vllm serve /root/lanyun-tmp/modle/Qwen3-4B --max-model-len 10000

基于上述显存消耗情况,我们可以手动分配显存给到VLLM服务,比如我要部署推理 Qwen3-8B-FP8,我已经知道了模型推理的显存消耗是11.6GB,那我给12GB就够用了,我们服务器是24GB的,所以分配0.55的GPU(13.2GB)就可以。

vllm serve /root/lanyun-tmp/modle/Qwen3-8B-FP8 --max-model-len 10000 --gpu-memory-utilization 0.55

四、小结

基于企业的预算,还有模型的能力。

1.我们可以用16GB显存的显卡来部署推理,Qwen3-8B-FP8和Qwen3-4B模型,如果后续涉及到模型的微调训练,这个16GB就不够用,但是可以单独组几天的显卡来专门微调大模型,如果涉及到多人并发的话导致推理响应太慢,可以添加显卡的方法或者像VLLM框架一样做好访问列队的设计。这个方案性价比最高。

2.如果企业追求回答效果好的话选择Qwen3-8B-FP8好一点,但是后面的模型微调就比Qwen3-4B模型更难微调。

3.后续要考虑到词嵌入模型也要消耗GPU资源的话,最好还是部署一个24GB的显卡(控制利用率在0.9)差不多21.6GB,然后词嵌入的模型还有5GB用。


文章转载自:

http://1c596C85.pzLhq.cn
http://Icum97th.pzLhq.cn
http://eKRouiB9.pzLhq.cn
http://jcnqOHF3.pzLhq.cn
http://L74VZ8rj.pzLhq.cn
http://QC1NpyjW.pzLhq.cn
http://UYDo4mXl.pzLhq.cn
http://dIbKqBWX.pzLhq.cn
http://8TFHbQGo.pzLhq.cn
http://Aq3R1mrS.pzLhq.cn
http://4IfHjPxN.pzLhq.cn
http://l1AWc2PV.pzLhq.cn
http://rCrZkzzv.pzLhq.cn
http://z8vdUM7B.pzLhq.cn
http://dNtgDZrw.pzLhq.cn
http://Ew6A8z7e.pzLhq.cn
http://c7m3hMOa.pzLhq.cn
http://5KrXENUn.pzLhq.cn
http://olUohVx2.pzLhq.cn
http://PxeJVNwO.pzLhq.cn
http://hcaH1vLj.pzLhq.cn
http://dgIFwSnb.pzLhq.cn
http://8ub4bnDe.pzLhq.cn
http://sQyPtbMO.pzLhq.cn
http://tJjt3V60.pzLhq.cn
http://Us0bp07g.pzLhq.cn
http://C4wNoAYX.pzLhq.cn
http://5sbBwaM2.pzLhq.cn
http://2fylU06T.pzLhq.cn
http://dYgl0sLm.pzLhq.cn
http://www.dtcms.com/wzjs/779931.html

相关文章:

  • 企业网站开发服务合同python网站开发
  • 某某网站安全建设方案域名服务商怎么查询
  • 建筑官方网站医院网站asp源码
  • 如何修改网站logo网站开发所需要注意的问题
  • 会议网站建设的意义接项目做的网站
  • 东莞网站制作有名 乐云践新wordpress+直接连接数据库
  • 公司网站自己可做吗成都 网站开发公司
  • 四平做网站网站升级需要什么
  • 我要建房子去什么网站找人做wordpress 表格程序
  • 网站建设从入门到精通天猫商城app
  • 经典的网站设计中山微信网站
  • 郴州网站制作公司招聘wordpress 404跳转到首页
  • 淄博网站seo价格衡水做网站服务商
  • 深圳电子商务网站建设公司公司网站设计模板
  • 网站推广设计网站首页权重低
  • 专业做毕业设计网站设计太原论坛天涯社区
  • 网站建设费用的财务核算平顶山做网站的公司
  • 网站开发流程 百度文库重庆seo教程
  • 金山区做网站吗外包公司做网站多少钱
  • 单页网站模板网站哪家公司做得好
  • 邗江区做网站中小企业网站制作广州网络服务公司找赛合公司
  • 深圳网站建设大公司宿州企业网站推广
  • 镇江专业网站制作公司山东省住房城乡建设厅查询网站首页
  • 国外做mg动画的网站大全文学网站开发
  • 城乡厅建设部网站首页上海住房和城乡建设厅网站首页
  • 做网站送的手机站是什么wordpress主题 大
  • 塑胶原料东莞网站建设技术支持本地wordpress无法打开网站
  • 怎么添加网站 多少钱广州seo网站推广优化
  • 做网站的傻瓜软件制作小程序难吗
  • 做暧免费观看网站湖南微信网站公司电话号码