当前位置: 首页 > wzjs >正文

网站后台可改资料百度热搜榜第一

网站后台可改资料,百度热搜榜第一,电脑做高考真题的网站,中国造价工程建设监理协会网站单卡4090部署Qwen3-32B-AWQ(4bit量化) 模型:Qwen3-32B-AWQ(4bit量化) 显卡:4090 1 张 python版本 python 3.12 推理框架“vllm 重要包的版本 vllm0.9.0创建GPU云主机 这里我使用的是优云智算平台的GPU,使用链接可以看下面的 https://blog.…

单卡4090部署Qwen3-32B-AWQ(4bit量化)

  • 模型:Qwen3-32B-AWQ(4bit量化)

  • 显卡:4090 1 张

  • python版本

    python 3.12

  • 推理框架“vllm

  • 重要包的版本

    vllm==0.9.0
    

创建GPU云主机

  • 这里我使用的是优云智算平台的GPU,使用链接可以看下面的

    https://blog.csdn.net/hbkybkzw/article/details/148310288

  • 注册链接如下

    https://passport.compshare.cn/register?referral_code=tRej61o0bLFAfC9mS6Php

创建

  • 这一步非必须,如果有自己的GPU机器则可以直接跳过

    我们进入部署GPU实例 选择平台镜像,具体操作如下

    image-20250530142747148

    在更多配置中设置实例名称,付款方式使用按量计费,点击立即部署

    image-20250530142819601

    等待状态变为运行中,复制登录指令和密码进行登录,这里我们使用finalshell进行连接

    image-20250530143052240

    下载模型以及安装python环境会花费一部分时间,这部分时间我们可以先将实例关闭后选择无卡模式启动,这样就节省费用了

image-20250530143511717


开放端口(非必须)

  • 配置防火墙

    image-20250530161525079

    添加规则,这里我开放了8081端口

    image-20250530161642556


安装C编译器(必须)

  • 当前使用的这个镜像是没有c编译器的,需要安装一下

    apt-get update
    apt-get install build-essential
    
  • 设置环境变量

    export CC=/usr/bin/gcc
    
  • 检查C编译器是否正确安装

    gcc --version
    

    image-20250530153952221


安装

模型下载

  • Qwen3-32B-AWQ模型的modelscope和huggingface地址如下

    modelscope: https://modelscope.cn/models/Qwen/Qwen3-32B-AWQ

    huggingface: https://huggingface.co/Qwen/Qwen3-32B-AWQ

    这里我们以modelscope为例,复制模型名称 Qwen/Qwen3-30B-A3B, 这个名称在我们下载的时候会用到

    image-20250530144257611

  • 使用modelscope下载,需要安装modelscope库

    pip install modelscope
    

    已经有modelscope库的需要升级下面的几个包

    pip install --upgrade modelscope -i https://pypi.tuna.tsinghua.edu.cn/simplepip install --upgrade transformers -i https://pypi.tuna.tsinghua.edu.cn/simple
    pip install --upgrade peft -i https://pypi.tuna.tsinghua.edu.cn/simple
    pip install --upgrade diffusers -i https://pypi.tuna.tsinghua.edu.cn/simple
    
  • 下载

    默认下载在当前用户的.cache文件夹下,比如现在是root用户,则默认在

    /root/.cache/modelscope/hub/models/Qwen/Qwen3-32B-AWQ

    我们希望将其下载在

    /root/Qwen/Qwen/Qwen3-32B-AWQ

    from modelscope.hub.snapshot_download import snapshot_downloadmodel_name = "Qwen/Qwen3-32B-AWQ"cache_dir = "/root"  # 替换为你希望的路径snapshot_download(model_name, cache_dir=cache_dir)
    

    image-20250530145900920

  • 在下载完成后,我们查看下

    ls -lha /root/Qwen/Qwen3-32B-AWQ
    

    image-20250530150024516


环境安装

  • 使用conda创建虚拟环境

    conda create --name qwen3-awq python=3.12conda activate qwen3-awq
    
  • 下载vllm(指定清华源,否则极慢)

    pip install "vllm>=0.8.5" -i https://pypi.tuna.tsinghua.edu.cn/simple
    
  • 需要注意的是transformers的版本需要>=4.51.0

    pip show transformers
    

    image-20250530152657472


vllm启动

  • llm启动命令

    vllm serve /root/Qwen/Qwen3-32B-AWQ \--max-model-len 8192 \--enable-reasoning --reasoning-parser deepseek_r1 \--gpu-memory-utilization 0.95 \--host 0.0.0.0 \--port 8081 \--served-model-name Qwen3-32B-AWQ-vllm
    

    以下是对VLLM启动命令参数的简要说明

    参数简要说明
    vllm serve /root/Qwen/Qwen3-32B-AWQ启动VLLM服务、指定模型路径
    --enable-reasoning启用推理功能(think)
    --reasoning-parser指定推理解析器
    --max-model-len模型处理的最大序列长度
    --gpu-memory-utilization预分配的GPU内存比例 (vllm默认为0.9)
    --host设置服务监听的主机地址,0.0.0.0表示监听所有网络接口
    --port设置服务监听的端口号
    --served-model-name设置模型名
  • 以8081端口启动成功

    image-20250530162100565

  • 显存占用情况

    image-20250530162148847

  • 测试

    测试代码

    from openai import OpenAI
    import openaiopenai.api_key = '1111111' # 这里随便填一个
    openai.base_url = 'http://127.0.0.1:8081/v1'def get_completion(prompt, model="QwQ-32B"):client = OpenAI(api_key=openai.api_key,base_url=openai.base_url)messages = [{"role": "user", "content": prompt}]response = client.chat.completions.create(model=model,messages=messages,stream=False)reasoning_content = response.choices[0].message.reasoning_contentcontent = response.choices[0].message.contentreturn reasoning_content,contentprompt = '请计算straberry这个单词中字母r的出现次数'reasoning_content,content = get_completion(prompt, model="Qwen3-32B-AWQ-vllm")
    print('reasoning_content',reasoning_content)
    print('content',content)
    

    image-20250530175141999

    看看每秒tokens数

    image-20250530175215188


http://www.dtcms.com/wzjs/140627.html

相关文章:

  • 无锡工程建设监察支队网站武汉标兵seo
  • 手机小说网站源码徐州seo外包平台
  • 软件技术专科就业方向及前景seo网站编辑优化招聘
  • 北京网站建设明细seo需求
  • 蛋糕烘焙wordpress主题文章优化关键词排名
  • 珠海网站推广网络营销ppt怎么做
  • 有哪些专门做写字楼的网站百度口碑官网
  • 做网站后的收获友情链接交换系统
  • 互助平台网站建设苏州百度推广公司地址
  • 网站内容建设 互联互通青岛网站排名推广
  • 创业平台官网seo对网站优化
  • 宝安企业网站建设西安发布最新通知
  • 贵阳模板做网站百度公司的企业文化
  • 做网上商城网站哪家好网站制作公司哪家好
  • 建设企业和建筑企业成都seo公司
  • 翻译网站开发百度排名工具
  • 开发网站app公司湛江seo网站管理
  • 我的文章被其他公司网站抄袭怎么做做电商一个月能挣多少钱
  • wordpress rss 爬取上海牛巨微seo优化
  • 网站被墙检测百度网址是什么
  • 中国人民大学建设处网站主页app开发公司有哪些
  • 网站建设客服工作交换友情链接是什么意思
  • 建设银行官方网站客户资料修改tool站长工具
  • 通化市城乡建设局网站今天重大新闻头条新闻军事
  • 鹤壁做网站价格海南乐秀同城群软件下载
  • 专业网站建设空间网络推广软件哪个好
  • 国外免费b2b百度seo推广价格
  • 网站参数修改app搜索优化
  • 云南营销型网站建设互联网营销师在哪里报名
  • 做网站备案完成之后需要干什么环球军事网最新军事新闻最新消息