当前位置: 首页 > wzjs >正文

松江城乡建设委员会的网站自媒体发布软件app

松江城乡建设委员会的网站,自媒体发布软件app,生成html网站地图,住房和城乡建设部幼儿园网站本文基于下面的文章进行在探索,请最好先阅读下面文章。 超详细VLLM框架部署qwen3-4B加混合推理探索!!!-CSDN博客 一、模型选择和下载 通义千问3-8B-FP8 模型库 modelscope download --model Qwen/Qwen3-8B --local_dir /root/l…

本文基于下面的文章进行在探索,请最好先阅读下面文章。

超详细VLLM框架部署qwen3-4B加混合推理探索!!!-CSDN博客

一、模型选择和下载

通义千问3-8B-FP8 · 模型库

modelscope download --model Qwen/Qwen3-8B --local_dir /root/lanyun-tmp/modle/Qwen3-8B

modelscope download --model Qwen/Qwen3-4B --local_dir /root/lanyun-tmp/modle/Qwen3-4B

modelscope download --model Qwen/Qwen3-8B-FP8 --local_dir /root/lanyun-tmp/modle/Qwen3-8B-FP8

我的云服务器

二、模型的说明

 2.1 这三个模型有什么区别?

这里就需要知道大模型是什么?大模型本质上是一堆浮点数数字组成的矩阵,可以在模型的配置中看到。比如Qwen3-8B的8B是指,这个矩阵的浮点数字有80亿个,而每个参数(浮点数字)又是bfloat16的。可以简单理解成,模型的能力 = 模型参数量 * 模型的精度,但是模型的精度的影响较小,比如参数圆周率,精度是16位小数还是8位小数,对于我们计算圆的面积来说,误差是差不多的。但是16位的参数圆周率,我们计算的难度就会更大(显存消耗大),但是精度也会更精确。

所以Qwen3-8B等价于Qwen3-8B-FP16,Qwen3-4B等价于Qwen3-4B-FP16,我们把模型的每个参数的精度都从16位变成8位的过程就叫模型量化,我们一方面可以用模型微调框架LLama-factory进行模型量化,另一方面也可以直接在魔塔社区下载别人已经量化压缩好的模型Qwen3-8B-FP8

三、VLLM框架推理三个模型的显存消耗情况

显存怎么计算看一看前面的博客如何计算VLLM本地部署Qwen3-4B的GPU最小配置应该是多少?多人并发访问本地大模型的GPU配置应该怎么分配?-CSDN博客

情况一:Qwen3-8B-FP8:8.8GB+2.8GB = 11.6GB显存

vllm serve /root/lanyun-tmp/modle/Qwen3-8B-FP8 --max-model-len 10000

情况二: Qwen3-8B:15.2GB+1.3GB = 16.5GB显存

vllm serve /root/lanyun-tmp/modle/Qwen3-8B --max-model-len 10000

情况二: Qwen3-4B:7.55GB+1.3GB = 8.85GB显存

vllm serve /root/lanyun-tmp/modle/Qwen3-4B --max-model-len 10000

基于上述显存消耗情况,我们可以手动分配显存给到VLLM服务,比如我要部署推理 Qwen3-8B-FP8,我已经知道了模型推理的显存消耗是11.6GB,那我给12GB就够用了,我们服务器是24GB的,所以分配0.55的GPU(13.2GB)就可以。

vllm serve /root/lanyun-tmp/modle/Qwen3-8B-FP8 --max-model-len 10000 --gpu-memory-utilization 0.55

四、小结

基于企业的预算,还有模型的能力。

1.我们可以用16GB显存的显卡来部署推理,Qwen3-8B-FP8和Qwen3-4B模型,如果后续涉及到模型的微调训练,这个16GB就不够用,但是可以单独组几天的显卡来专门微调大模型,如果涉及到多人并发的话导致推理响应太慢,可以添加显卡的方法或者像VLLM框架一样做好访问列队的设计。这个方案性价比最高。

2.如果企业追求回答效果好的话选择Qwen3-8B-FP8好一点,但是后面的模型微调就比Qwen3-4B模型更难微调。

3.后续要考虑到词嵌入模型也要消耗GPU资源的话,最好还是部署一个24GB的显卡(控制利用率在0.9)差不多21.6GB,然后词嵌入的模型还有5GB用。

http://www.dtcms.com/wzjs/91707.html

相关文章:

  • 高中信息技术网站建设淘宝关键词查询
  • 上海app开发外包安卓优化大师app下载安装
  • 网站设计与网页配色实例精讲烟台百度推广公司
  • 洪雅网站建设电商怎么做新手入门
  • 镇江网站设计多少钱百度推广电话号码
  • 企业邮箱注册申请需要付费吗上海企业seo
  • 北京做网站建设的公司排名cps推广
  • 网站的结构怎么做广告投放运营主要做什么
  • wordpress3.0手机版关键词优化哪家强
  • 最新网站推广方法项目推广计划书
  • 郑州模板建站哪家好代做百度首页排名价格
  • 天津网站建设推广长沙seo优化价格
  • 求邯郸网站制作互联网销售模式
  • 响应式企业网站开发所用的平台seo外链是什么
  • 如何提高网站安全百度6大核心部门
  • wordpress 页脚链接seo公司是做什么的
  • 东莞五金网站建设千网推软文推广平台
  • 西安自适应网站建设今日新闻最新10条
  • wordpress桌面应用程序深圳网站营销seo电话
  • 网站后台登录怎么做的淘宝数据查询
  • 小语种网站建设要点seo优化一般包括哪些
  • 计算机网站开发毕业论文题目太原seo网站优化
  • 找做网站技术人员百度百家号怎么赚钱
  • 企业网站可以自己做搜索引擎广告推广
  • php网站做语言包石家庄网站优化
  • 网站服务公司业务范围包括网站制作流程图
  • 企业策划书模板seo搜索培训
  • 河北省镇政府做网站吗自己怎么优化网站排名
  • 做网站 就上凡科建站东莞网站建设做网站
  • 如何选择靠谱的网站建设公司seo专员工作内容