当前位置：首页 > news >正文

微端边缘设备部署大模型简单笔记

news 2025/10/18 13:50:09

个人学习笔记，没有验证，不要参照执行。

目前最新发布的 Qwen3 全系列，包括：

Qwen3（基础大模型）
Qwen3-VL（视觉-语言多模态）
Qwen2.5/3-Omni（全模态）
Qwen3-Coder（代码生成）
Qwen3-Embedding（向量化表示）
Qwen3-Reranker（重排序）

优化工具介绍：Optimum-Intel 是 Hugging Face 与 Intel 联合推出的工具库，专为在 Intel 硬件（如 CPU、GPU、AI 加速器）上优化和部署 Transformer 模型而设计。它支持通过 OpenVINO、Intel Neural Compressor、IPEX 等后端进行模型压缩、量化、导出和推理，显著提升模型性能并降低延迟。

以下是如何使用 Optimum-Intel 工具的基本流程：

✅ 一、安装 Optimum-Intel 和相关依赖

根据你的目标后端（如 OpenVINO、IPEX、Neural Compressor），选择安装方式：

# 安装 Optimum-Intel（含 OpenVINO 支持）
pip install --upgrade --upgrade-strategy eager "optimum[openvino]"# 如需支持 PyTorch 优化（IPEX）
pip install intel_extension_for_pytorch# 如需神经网络压缩（INT8/INT4 量化）
pip install "optimum[neural-compressor]"

建议使用虚拟环境，并升级 pip：python -m pip install --upgrade pip

✅ 二、导出模型为 OpenVINO 格式（IR）

你可以使用 Python API 或 CLI 工具将 Hugging Face 模型导出为 OpenVINO 中间表示（IR）格式：

方法 1：Python API

from optimum.intel import OVModelForCausalLMmodel_id = "Qwen/Qwen3-8B"
model = OVModelForCausalLM.from_pretrained(model_id, export=True)
model.save_pretrained("./qwen3-8b-ov")

方法 2：命令行工具（CLI）

optimum-cli export openvino -m Qwen/Qwen3-8B ./qwen3-8b-ov

导出后，你将获得 .xml 和 .bin 文件，以及 tokenizer 和相关配置文件

✅ 三、模型优化（可选但推荐）

Optimum-Intel 支持多种量化策略，如 INT8、INT4、AWQ、GPTQ 等，适合在资源受限设备上部署大型模型。

示例：INT4 权重量化（推荐用于 LLM）

from optimum.intel import OVModelForCausalLM, OVWeightQuantizationConfigMODEL_ID = "Qwen/Qwen3-8B"
quantization_config = OVWeightQuantizationConfig(bits=4,awq=True,scale_estimation=True,group_size=64,dataset="c4"
)model = OVModelForCausalLM.from_pretrained(MODEL_ID,export=True,quantization_config=quantization_config
)
model.save_pretrained("./qwen3-8b-ov-int4")

轻量型操作系统：

Porteus-CINNAMON-v5.1-alpha3-x86_64.iso     554M
Porteus-KDE-v5.1-alpha3-x86_64.iso         600M
Porteus-LXDE-v5.1-alpha3-x86_64.iso       529M
Porteus-LXQT-v5.1-alpha3-x86_64.iso       553M
Porteus-MATE-v5.1-alpha3-x86_64.iso      539M
Porteus-OPENBOX-v5.1-alpha3-x86_64.iso     524M
Porteus-XFCE-v5.1-alpha3-x86_64.iso       532M

分析：OPENBOX桌面基础内存占用最小，但是没有开箱Python。LXQT基础内存占用高一点，但是已集成Python3.11,可跳过gcc编译步骤。

查看全文

http://www.dtcms.com/a/496649.html