当前位置: 首页 > news >正文

npu环境docker部署vllm

系统环境

cat /etc/os-release
NAME="EulerOS"
VERSION="2.0 (SP10)"
ID="euleros"
VERSION_ID="2.0"
PRETTY_NAME="EulerOS 2.0 (SP10)"
ANSI_COLOR="0;31"uname -m
aarch64npu-smi info
# 8卡 ...

下载模型

  • 安装git git-lfs
    yum install git
    wget https://github.com/git-lfs/git-lfs/releases/download/v3.7.0/git-lfs-linux-arm64-v3.7.0.tar.gz
    tar -xzvf git-lfs-linux-amd64-v3.7.0.tar.gz
    cd git-lfs-3.7.0/
    ./install.sh
    
  • 下载模型
    GIT_LFS_SKIP_SMUDGE=1 git clone https://gitcode.com/hf_mirrors/Qwen/Qwen3-0.6B.git
    cd Qwen3-0.6B
    git lfs install
    nohup git lfs pull > /dev/null 2>&1 &
    

下载镜像

  • 修改源 vim /etc/docker/daemon.json
    {..."registry-mirrors": ["https://docker.xuanyuan.me","https://docker.1ms.run","https://mirror.ccs.tencentyun.com","https://docker-0.unsee.tech","https://docker.m.daocloud.io"],...# 把 Docker 数据放到 大容量数据盘"max-concurrent-downloads": 1,"data-root": "/data2/develop/docker/default-work"
    }
    
  • 重新加载 systemd 配置
    systemctl daemon-reload
    
  • 重启 Docker
    systemctl restart docker
    
  • 查看源 docker info | grep -i Mirror
     Registry Mirrors:https://xxx.mirror.aliyuncs.com/https://mirror.ccs.tencentyun.com/
    
  • 下载vllm镜像
    docker pull quay.io/ascend/vllm-ascend:v0.11.0rc0
    

vllm 推理部署 Qwen3-0.6B

  • docker-compose.yaml
    version: '3.8'services:vllm-ascend:image: quay.io/ascend/vllm-ascend:v0.11.0rc0container_name: vllm-Qwen3-0.6Bdevices:# 配置第8张卡单独运行- /dev/davinci7- /dev/davinci_manager- /dev/devmm_svm- /dev/hisi_hdcvolumes:- /usr/local/dcmi:/usr/local/dcmi- /usr/local/bin/npu-smi:/usr/local/bin/npu-smi- /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/- /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info- /etc/ascend_install.info:/etc/ascend_install.info- /data2/models/Qwen3-0.6B:/data/modelports:- "8100:8000"restart: unless-stoppedstdin_open: truetty: truecommand: >vllm serve /data/model--served-model-name Qwen3-0.6B--tensor-parallel-size 1--dtype float16--compilation-config '{"custom_ops":["none", "+rms_norm", "+rotary_embedding"]}'--max-num-seqs 4--max-model-len 2048--gpu-memory-utilization 0.8--trust_remote_code
    
  • chat/completions
    curl --location 'http://localhost:8100/v1/chat/completions' \
    --header 'Content-Type: application/json' \
    --data '{"model": "Qwen3-0.6B","messages": [{"role": "user","content": "你好,你是谁,简单自我介绍一下"}],"top_p": 0.95,"stream": true,"stream_options": {"include_usage": true,"continuous_usage_stats": true}
    }'
    
    在这里插入图片描述
http://www.dtcms.com/a/598240.html

相关文章:

  • 建站广告爱山东app下载安装健康码
  • 网站网站做员工犯法吗企业建设网站的目的( )
  • SpringBoot面试题11-Bean的生命周期
  • 个人网站建设策划书怎么写经济技术开发区人才网
  • AI搜索优化技术特点与服务模式客观剖析,比较代表性公司优势
  • 网站制作服务公司网站建设具备什么条件
  • c2c网站开发策划别墅外观设计网站推荐
  • 免费建站搜索引擎 网站推广 举例
  • 梧州论坛看点重庆seo网站设计
  • 【SPIE出版丨往届已EI检索】第二届遥感技术与图像处理国际学术会议(RSTIP 2025)
  • 1-Linux驱动开发-内核模块介绍
  • 汽车品牌推广方案知名seo网站优化公司
  • 滕州英文网站建设网络推广营销工具
  • 网站建设太金手指六六二八宿州做网站公司
  • 国外做网站公司能赚钱电商培训方案
  • 比较还做的调查网站桂林网站制作公司
  • 南昌企业网站建设泉州做网站设计公司
  • 做购物网站流程一个人能建网站吗
  • 数字孪生云渲染终极指南(二):从实时云渲染到像素流技术解析
  • 山西 旅游 英文 网站建设怎么快速开发一个网站
  • 网站打开空白页面山西太原网络推广
  • GNN应用:网站结构建模(一)
  • pc网站增加手机站光遇网页制作素材
  • 网站怎么建立视频大连企业网站建设公司
  • 十五、ResNet详解:从原理到实战
  • 2025 爆火!海市蜃楼优化算法 MSO(Mirage Search Optimization):物理灵感 + 数学建模 + 实战代码,一文吃透前沿群智能算法
  • 高中生做网站网页培训班线上优化
  • 搜狐快站小网站备案
  • 大屏网站模板网络销售型网站有哪些
  • asp跳转到别的网站替换wordpress为QQ头像