当前位置: 首页 > news >正文

消费级显卡上ollama部署QwQ32B

ollama部署QwQ32B

  • QwQ32B硬件要求

    魔改2080ti 的 22G 显存差不多够用

    ollama中的是Q4_K_M量化模型

    硬件配置模型推理模型高效微调模型全量微调
    显存占用最低配置显存占用最低配置显存占用最低配置
    FP_1664GRTX3090*4(94G)92GRTX3090*4(94G)350GA100*6(480G)
    Q_4_K_M23GRTX3090(24G)31GRTX3090*2(48G)

使用命令安装 ollama

  • 官网安装命令

    curl -fsSL https://ollama.com/install.sh | sh
    

    image-20250314145555539

  • 启动 ollama

    ollama server
    

    后台启动 ollama 并将 日志写入当前文件夹的 ollama.log 文件夹下

    nohup ollama serve > ollama.log 2>&1 &
    

使用安装包下载 ollama

  • ollama github主页的安装包

    https://github.com/ollama/ollama/releases

    image-20250314220102162

    点击下载(因网络原因建议点击下载)或者使用 wegt 下载对应 系统版本的 ollama 安装包,下面使用 wget 来演示,我使用的 GPU主机是 ubuntu 的,所以使用ollama-linux-arm64.tgz,右键复制下载链接,使用 wget 下载

    wget https://github.com/ollama/ollama/releases/download/v0.6.0/ollama-linux-arm64.tgz
    
    mkdir ./ollama
    tar -zxvf ollama-linux-amd64.tgz -C ./ollama
    
    chmod +x ollama
    
  • 将 bin 目录添加到系统环境变量

    vim ~/.bashrc
    

    添加以下

    export PATH=$PATH:/root/lanyun-tmp/ollama/bin

    保存并退出后,输入如下命令来使环境变量生效:

    source ~/.bashrc
    
  • 更换 ollama 模型下载的存放地址

    vim ~/.bashrc
    

    添加如下

    export OLLAMA_MODELS=/root/lanyun-tmp/models

    保存并退出后,输入如下命令来使环境变量生效:

    source ~/.bashrc
    

    测试下

    echo $OLLAMA_MODELS
    

部署 qwq32b

  • ollama 中的 qwq32b 是自己量化的,量化显存占用大概在 22G 左右

  • 下载 qwq32b

    ollama run qwq
    

    image-20250314150622849

    等待下载完成

    image-20250314150647102

    下载完成后即进入对话

    image-20250314170717521

    可以看到大概占用了 22G显存左右

    image-20250314174113841


相关文章:

  • 【DeepSeek】HTML Api调用(支持V3和 R1,多轮对话、流式输出、对话保存、markdown格式支持)
  • Pycharm安装Opencv详细教程
  • 蓝思科技冲刺港股上市,双重上市的意欲何为?
  • JavaScript基础篇:四、 运算符与表达式
  • LeetCode 力扣热题100 分割等和子集
  • Linux下使用pigz工具结合tar实现并行压缩提升压缩和解压速度
  • 简单的模拟法
  • 在imx6ull(cortex-A7)上运行SKRTOS
  • 分享vue好用的pdf 工具实测
  • 27.卷2的答案
  • How to introduce a new product in English?
  • qt style-sheet样式不起作用问答
  • Odoo Http鉴权+调用后端接口
  • [AI QA] strace | 探索 a.out
  • 探索 Rust 高效 Web 开发:Hyperlane 框架深度解析
  • HDU 学数数导致的
  • TDengine 使用最佳实践
  • 如何在保持安全/合规的同时更快地构建应用程序:DevOps 指南
  • docker无法正常拉取镜像问题的解决
  • Oracle检索数据
  • 广西北流出现强降雨,1人被洪水冲走已无生命体征
  • 海外考古大家访谈|冈村秀典:礼制的形成与早期中国
  • 特朗普政府涉税改法案遭众议院预算委员会否决
  • 上海虹桥国际咖啡文化节开幕,推出茶咖文化特色街区、宝妈咖啡师培训
  • 人民日报整版聚焦:外贸产品拓内销提速增量,多地加快推动内外贸一体化
  • 上海市税务局:收到对刘某某存在涉税问题的举报,正依法依规办理