当前位置：首页 > news >正文

基于llama.cpp在CPU环境部署Qwen3

news 2025/9/2 5:42:27

大家好，我是奇文王语，NLP爱好者，长期分享大模型实战技巧，欢迎关注交流。

最近两天在研究如何使用小规模参数的模型在CPU环境上进行落地应用，比如模型Qwen3-0.6B。开始使用Transformers库能够正常把模型服务进行部署起来，但是通过测试速度比较慢，用户的体验会比较差。

一、框架对比

因此就调研了能够在CPU环境支持对模型加速的算法框架。比如：onnxruntime、openvino、llama.cpp。
（1）onnxruntime：需要转换为onnx格式的模型，但是对于Qwen3模型使用的SwiGLU、Rotary Embedding、动态 KV 缓存这些新技术onnx格式支持不是很好，会严重影响模型的推理效果；同时转换后会出现中间层冗余，推理速度很慢，对生成长文本的内容并不友好，同时需要把模型进行量化才可以。
（2）openvino：使用这个框架需要把模型转换成onnx格式，然后再转换为openvino IR格式的模型。转换比较复杂。目前官方未提供Qwen3转换的pipeline，需要多次进行测试验证。推理速度比不上llama.cpp + GGUF。
（3）llama.cpp：该框架原生支持CPU，技术文档相对成熟一些，推理和部署相对比较快些。因此最终选择这个技术方案进行了实验。

二、llama.cpp实验

1. 编译程序

# 克隆代码
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
# 编译
cmake

查看全文

http://www.dtcms.com/a/360803.html

JimuReport 积木报表 v2.1.3 版本发布，免费开源的可视化报表和大屏

【Linux手册】Unix/Linux 信号：原理、触发与响应机制实战

开源 C# .net mvc 开发（九）websocket--服务器与客户端的实时通信

Unity：XML笔记

【基础】Three.js中如何添加阴影（附案例代码）

基于SpringBoot的运动服装销售系统【2026最新】

大型语言模型微调内容预告(69)

剧本杀小程序系统开发：重塑社交娱乐新生态

Trae x MCP：一键打造品牌专属高质量SVG封面

apipost 8.x 脚本循环调用接口

9月1日

WhatsApp 漏洞与 Apple 零日漏洞一起被利用于间谍软件攻击

LangChain VectorStores核心：多向量数据库统一交互层与RAG存储中枢

深度学习——速问速答

Java视觉跟踪入门：使用OpenCV实现实时对象追踪

Vue2存量项目国际化改造踩坑

pyside6小项目：进制转换器

《架构师手记：SpringCloud整合Nacos实战·一》

2.MySQL库的操作

Spark实现推荐系统中的相似度算法

【LeetCode】19、删除链表的倒数第N个结点

P1803 凌乱的yyy / 线段覆盖

802.11 和 802.1X

计算机毕设选题：基于Python+Django的健康饮食管理系统设计【源码+文档+调试】

网络原理——TCP/UDP/IP

【面试场景题】如何快速判断几十亿个数中是否存在某个数

【面试场景题】100M网络带宽能不能支撑QPS3000

(3dnr)多帧视频图像去噪（一）

第六章 Vue3 + Three.js 实现高质量全景图查看器：从基础到优化

站在巨人的肩膀上：gRPC通过HTTP/2构建云原生时代的通信标准

一、框架对比

二、llama.cpp实验

1. 编译程序

相关文章：