当前位置: 首页 > news >正文

使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速度是cpu的近8倍.

测试环境: ubuntu22.04 x86+llama.cpp

cpu intel 10750h 4.41 tokens / s

model

size

params

backend

threads

test

t/s

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CPU

6

pp512

15.70 ± 0.40

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CPU

6

tg128

4.41 ± 0.03

 使用-t 12扩展到12线程,速度也没有明显变化.

gpu nvidia 1660, 生成速度36 tokens / s.

model

size

params

backend

ngl

test

t/s

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CUDA

30

pp512

164.55 ± 0.03

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CUDA

30

tg128

36.38 ± 0.02

相关文章:

  • 计算机组成原理—— 总线系统(十二)
  • pytest测试专题 - 2.1 一种推荐的测试目录结构
  • 编程速递-庆祝Delphi诞生30周年!
  • 2025智能硬件售后服务管理系统选择的六大标准
  • 小项目第一天
  • CAS单点登录(第7版)20.用户界面
  • Centos安装php-8.0.24.tar
  • unity学习41:动画里的曲线curve参数 和 事件 events
  • CAS单点登录(第7版)17.账户注册
  • 深度学习框架探秘|TensorFlow:AI 世界的万能钥匙
  • 安科瑞光伏发电防逆流解决方案——守护电网安全,提升能源效率
  • 算法随笔_51: 表现良好的最长时间段_方法2
  • Java三大特性
  • Uniapp 短视频去水印解析工具开发实现
  • Ubuntu添加桌面快捷方式
  • 2025有哪些关键词优化工具好用
  • XML Schema anyAttribute 元素详解
  • 算法12-贪心算法
  • 解析浏览器中JavaScript与Native交互原理:以WebGPU为例
  • 应用层优秀的共享民宿物联网框架该怎么选?
  • 专访|高圆圆:像鸟儿一样,柔弱也自由
  • 视频丨习近平主席出席俄方在机场举行的迎宾仪式
  • 习近平抵达莫斯科伏努科沃专机机场发表书面讲话(全文)
  • 吴清:创造条件支持优质中概股企业回归内地和香港股市
  • 山东滕州一车辆撞向公交站台撞倒多人,肇事者被控制,案件已移交刑警
  • 李翔宁:城市的每个人都参与了上海的建造,这一过程还在持续