当前位置: 首页 > news >正文

【Lmdeploy】大模型本地化部署

目录

一、租用服务器到服务器连接VScode全流程(可选)

二、下载模型到本地服务器

1、进入魔塔社区官网

2、选择下载模型

3、执行下载

三、部署LMDeploy

1、查看LMDeploy 的中文教程

2、查看安装命令并执行

3 、启动模型服务

4、调用模型进行对话

四、Lmdeploy简介

五、适合哪些人群?

六、适合哪些应用场景?

七、Lmdeploy优缺点 

✅ Lmdeploy 优点一览

❌ Lmdeploy 的不足/限制


一、租用服务器到服务器连接VScode全流程(可选)

AutoDL连接VSCode运行深度学习项目的全流程教程:
【云端深度学习训练与部署平台】AutoDL连接VSCode运行深度学习项目的全流程-CSDN博客

AutoDL官网地址:AutoDL算力云 | 弹性、好用、省钱。租GPU就上AutoDL

这里介绍了 AutoDL 平台的使用方法,从平台简介、服务器租用、VSCode远程连接,到高级GPU监控工具的安装,适合中文开发者快速上手深度学习任务。

▲如果说电脑硬件配置太低(如:显存低于24GB),请根据【AutoDL连接VSCode运行深度学习项目的全流程教程】,通过云服务器来进行部署运行;

▲如果说电脑硬件配置足够高(如:显存24GB及以上),或者说有自己的服务器,可以直接跳过这一步;


二、下载模型到本地服务器

1、进入魔塔社区官网

魔塔社区官网地址:ModelScope 魔搭社区

2、选择下载模型

这里根据业务场景选择合适的模型类型和模型参数大小即可。

这里用SDK的下载方式下载模型:将代码复制到服务器中

3、执行下载

▲在服务器的数据盘中(autodl-tmp下 )创建一个.py文件(如download_model.py);

▲将复制的SDK下载代码复制到【download_model.py】 ;

▲修改存放路径为数据盘:cache_dir="/root/autodl-tmp"

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3-0.6B',cache_dir="/root/autodl-tmp")

cache_dir="/root/autodl-tmp"表示存放的路径,/root/autodl-tmp为数据盘路径;

#出发路径:服务器根目录#查看当前位置
ls#进入到数据盘路径
cd autodl-tmp/#运行下载脚本download.py
python download.py

【注意】

▲下载完后,提示成功的信息可能会夹在进度条的中间,按下【回车】即可继续操作


▲验证模型文件是否下载完整?

这种情况主要出现在下载大参数模型时(如7B及以上参数模型),下载中途可能会因为网络问题导致文件下载失败从而终止。这种情况只需再次执行下载命令(如:python download.py),即可继续下载,中断反复执行即可,直到出现下载成功的提示信息即可。


▲模型资源重复

在下载模型时,有的模型文件可能会出现2个模型资源文件夹,不过这都不影响,不管用哪一份都可以;


三、部署LMDeploy

1、查看LMDeploy 的中文教程

LMDeploy 的中文教程:欢迎来到 LMDeploy 的中文教程! — lmdeploy

2、查看安装命令并执行

#创建虚拟环境:lmdeploy
conda create -n lmdeploy python=3.10 -y#激活虚拟环境
conda activate lmdeploy#安装lmdeploy
pip install lmdeploy

python的安装版本会因为更新而有所变化,一切以官方文档为准。

3 、启动模型服务

lmdeploy serve api_server /root/autodl-tmp/Qwen/Qwen3-0.6B

 /root/autodl-tmp/Qwen/Qwen3-0.6B表示模型路径;

4、调用模型进行对话

在数据盘下新建python脚本test.py,写入代码:

端口号默认为23333

#使用openai的API风格调用本地模型
from openai import OpenAIclient = OpenAI(base_url="http://localhost:23333/v1",  api_key="yyds"  # 填任意非空字符串即可(vLLM/Ollama 不验证)
)chat_completion = client.chat.completions.create(model="/root/autodl-tmp/Qwen/Qwen3-0.6B",  messages=[{"role": "user", "content": "你好,做个自我介绍"}]
)print(chat_completion.choices[0].message.content)

新开终端,在数据盘路径下运行脚本

#切换至数据盘路径
cd autodl-tmp/#运行脚本
python test.py

【扩展命令】

#退出虚拟环境
conda deactivate#查看你当前机器上所有 Conda 虚拟环境
conda info --env#彻底删除名为 vllm 的 Conda 环境及其所有内容
conda remove -n vllm --all 


四、Lmdeploy简介

Lmdeploy 是由 OpenMMLab(商汤科技)推出的 大语言模型推理部署框架,专为 高性能、本地化、端侧部署 场景设计。

它整合了模型量化(INT4)、图优化、推理加速(如 TensorRT)、多协议服务等,目标是:
🧠 让大模型在服务器、边缘设备、本地 PC 上高效运行起来。


 五、适合哪些人群?

人群说明
👨‍💻 AI 工程师具备一定 PyTorch / CUDA / ONNX / TensorRT 使用经验,负责模型部署与加速
🧪 科研开发者需对比不同模型在本地部署下的响应速度和内存开销
🧰 企业运维/模型落地人员关注推理性能、显存占用、服务部署稳定性
🔍 终端/边缘开发者需要将大模型部署在嵌入式、笔记本、小型 GPU 服务器等资源有限设备上

 六、适合哪些应用场景?

场景描述
📦 私有化部署大模型服务企业内部希望部署如 Qwen、Baichuan 等国产大模型
🎯 多模型加速推理服务多模型、多任务部署需求(如对话、摘要、问答)
🖥️ 本地低资源运行 LLM如在单卡 RTX 3060 / 3080 / Jetson 等本地设备部署 INT4 量化模型
⚙️ 模型性能调优实验对显存占用、推理时间等进行深度优化测试
🧠 支持 ONNX / TensorRT / Triton 等高性能平台的推理集成多种后端支持,利于部署整合

七、Lmdeploy优缺点 

✅ Lmdeploy 优点一览

优点说明
⚡ 高性能推理加速基于 TensorRT、CUDA Graph、ONNX 等深度图优化
🧮 模型压缩支持好支持 INT4 / GPTQ 等低比特量化,极大节省显存
🧩 支持主流国产模型Qwen, Baichuan, InternLM, ChatGLM 等原生适配
📦 支持多种服务接口OpenAI API、Gradio、Triton 等,易于对接
💻 本地部署友好从边缘设备到多卡服务器都可以运行,配置灵活
📂 开源透明,国产化适配强适合国产 LLM 在政企场景部署


❌ Lmdeploy 的不足/限制

不足描述
❌ 部署门槛偏高安装依赖复杂(需要 CUDA、TensorRT、ONNX 等编译工具链)
❌ 不支持训练/微调和 vLLM 一样,仅支持推理,微调需借助外部框架(如 PEFT)
❌ 对模型格式有要求需要转换为内部统一格式(如 .bin + config.json + tokenizer)
⏳ 启动模型速度较慢模型预加载、优化阶段可能稍耗时
📖 文档略显工程化入门门槛高,缺少低门槛例子或图形化界面(适合工程熟手)

Lmdeploy 是一个专为本地和边缘部署优化的大模型推理框架,支持主流国产模型、性能极强,适合有工程能力的团队做私有化部署或模型加速服务;但上手稍有门槛,不适合零基础开发者。

http://www.dtcms.com/a/278186.html

相关文章:

  • 技术文章大纲:C++内存泄漏排查大赛
  • Node.js特训专栏-实战进阶:16. RBAC权限模型设计
  • 05.判断日期是工作日还是周末
  • 搭建个人Manus-JManus-00-集合介绍
  • OSPF实验(2)
  • 《夏重庆》——一场暴雨的立体诗篇(DeepSeek赏析)
  • 图形处理算法分类、应用场景及技术解析
  • 3d bounding box投影到2d
  • 12中kali自带的网络工具(开箱即用)
  • 一文打通MySQL任督二脉(事务、索引、锁、SQL优化、分库分表)
  • OSPF与BGP的联动特性实验案例
  • ConcurrentHashMap笔记
  • 从零开始学习深度学习—水果分类之PyQt5App
  • AutoDL挂载阿里云OSS
  • leetGPU解题笔记(1)
  • 【LeetCode Hot100 | 每日刷题】字母异位词分组
  • Can I Trust Your Answer? Visually Grounded Video Question Answering
  • C++高频知识点(十三)
  • 删除screen会话以及查看进程信息的方法
  • 魔力宝贝归来版,虚拟机搭建教程
  • 【SCI 4区推荐】《Journal of Visual Communication and Image Representation》
  • 消息中间件优化高手笔记
  • 退出登录后头像还在?这个缓存问题坑过多少前端!
  • 论文阅读:PolarFree Polarization-based Reflection-Free Imaging
  • IT岗位任职资格体系及发展通道-产品经理岗位任职标准参考
  • 《Python JSON 数据解析全指南:从基础到实战(含 jsonpath 与 Schema 验证)》
  • 九、官方人格提示词汇总(上)
  • 改进广告投入与销售额预测分析
  • CVE-2021-31201
  • 特征选择要解决什么问题