当前位置：首页 > news >正文

使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

news 2025/10/18 12:18:00

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速度是cpu的近8倍.

测试环境: ubuntu22.04 x86+llama.cpp

cpu intel 10750h 4.41 tokens / s

model	size	params	backend	threads	test	t/s
qwen2 7B Q5_K - Medium	5.07 GiB	7.62 B	CPU	6	pp512	15.70 ± 0.40
qwen2 7B Q5_K - Medium	5.07 GiB	7.62 B	CPU	6	tg128	4.41 ± 0.03

使用-t 12扩展到12线程，速度也没有明显变化.

gpu nvidia 1660, 生成速度36 tokens / s.

model	size	params	backend	ngl	test	t/s
qwen2 7B Q5_K - Medium	5.07 GiB	7.62 B	CUDA	30	pp512	164.55 ± 0.03
qwen2 7B Q5_K - Medium	5.07 GiB	7.62 B	CUDA	30	tg128	36.38 ± 0.02

http://www.dtcms.com/a/19909.html

相关文章：

计算机组成原理—— 总线系统（十二）

pytest测试专题 - 2.1 一种推荐的测试目录结构

编程速递-庆祝Delphi诞生30周年！

2025智能硬件售后服务管理系统选择的六大标准

小项目第一天

CAS单点登录（第7版）20.用户界面

Centos安装php-8.0.24.tar

unity学习41：动画里的曲线curve参数和事件 events

CAS单点登录（第7版）17.账户注册

深度学习框架探秘｜TensorFlow：AI 世界的万能钥匙

安科瑞光伏发电防逆流解决方案——守护电网安全，提升能源效率

算法随笔_51: 表现良好的最长时间段_方法2

Java三大特性

Uniapp 短视频去水印解析工具开发实现

Ubuntu添加桌面快捷方式

2025有哪些关键词优化工具好用

XML Schema anyAttribute 元素详解

算法12-贪心算法

解析浏览器中JavaScript与Native交互原理：以WebGPU为例

应用层优秀的共享民宿物联网框架该怎么选？

Spring篇--AOP

前端可以不用依赖后端实现导出大数据了

C#学习之数据转换

python defaultdict用法

ios中常见的设计原则和设计模式

Hadoop集群安装与配置指南（CentOS 7）

力扣LeetCode: 1742 盒子中小球的最大数量

5-CDE说明

buu-jarvisoj_level2_x64-好久不见37

Ubuntu 上安装 Elasticsearch 7.6.0