微端边缘设备部署大模型简单笔记
个人学习笔记,没有验证,不要参照执行。
目前最新发布的 Qwen3 全系列,包括:
-
Qwen3(基础大模型)
-
Qwen3-VL(视觉-语言多模态)
-
Qwen2.5/3-Omni(全模态)
-
Qwen3-Coder(代码生成)
-
Qwen3-Embedding(向量化表示)
-
Qwen3-Reranker(重排序)
优化工具介绍:Optimum-Intel 是 Hugging Face 与 Intel 联合推出的工具库,专为在 Intel 硬件(如 CPU、GPU、AI 加速器)上优化和部署 Transformer 模型而设计。它支持通过 OpenVINO、Intel Neural Compressor、IPEX 等后端进行模型压缩、量化、导出和推理,显著提升模型性能并降低延迟。
以下是如何使用 Optimum-Intel 工具的基本流程:
✅ 一、安装 Optimum-Intel 和相关依赖
根据你的目标后端(如 OpenVINO、IPEX、Neural Compressor),选择安装方式:
# 安装 Optimum-Intel(含 OpenVINO 支持)
pip install --upgrade --upgrade-strategy eager "optimum[openvino]"# 如需支持 PyTorch 优化(IPEX)
pip install intel_extension_for_pytorch# 如需神经网络压缩(INT8/INT4 量化)
pip install "optimum[neural-compressor]"
建议使用虚拟环境,并升级 pip:
python -m pip install --upgrade pip
✅ 二、导出模型为 OpenVINO 格式(IR)
你可以使用 Python API 或 CLI 工具将 Hugging Face 模型导出为 OpenVINO 中间表示(IR)格式:
方法 1:Python API
from optimum.intel import OVModelForCausalLMmodel_id = "Qwen/Qwen3-8B"
model = OVModelForCausalLM.from_pretrained(model_id, export=True)
model.save_pretrained("./qwen3-8b-ov")
方法 2:命令行工具(CLI)
optimum-cli export openvino -m Qwen/Qwen3-8B ./qwen3-8b-ov
导出后,你将获得 .xml
和 .bin
文件,以及 tokenizer 和相关配置文件
✅ 三、模型优化(可选但推荐)
Optimum-Intel 支持多种量化策略,如 INT8、INT4、AWQ、GPTQ 等,适合在资源受限设备上部署大型模型。
示例:INT4 权重量化(推荐用于 LLM)
from optimum.intel import OVModelForCausalLM, OVWeightQuantizationConfigMODEL_ID = "Qwen/Qwen3-8B"
quantization_config = OVWeightQuantizationConfig(bits=4,awq=True,scale_estimation=True,group_size=64,dataset="c4"
)model = OVModelForCausalLM.from_pretrained(MODEL_ID,export=True,quantization_config=quantization_config
)
model.save_pretrained("./qwen3-8b-ov-int4")
轻量型操作系统:
Porteus-CINNAMON-v5.1-alpha3-x86_64.iso 554M
Porteus-KDE-v5.1-alpha3-x86_64.iso 600M
Porteus-LXDE-v5.1-alpha3-x86_64.iso 529M
Porteus-LXQT-v5.1-alpha3-x86_64.iso 553M
Porteus-MATE-v5.1-alpha3-x86_64.iso 539M
Porteus-OPENBOX-v5.1-alpha3-x86_64.iso 524M
Porteus-XFCE-v5.1-alpha3-x86_64.iso 532M
分析:OPENBOX桌面基础内存占用最小,但是没有开箱Python。LXQT基础内存占用高一点,但是已集成Python3.11,可跳过gcc编译步骤。