当前位置: 首页 > news >正文

使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速度是cpu的近8倍.

测试环境: ubuntu22.04 x86+llama.cpp

cpu intel 10750h 4.41 tokens / s

model

size

params

backend

threads

test

t/s

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CPU

6

pp512

15.70 ± 0.40

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CPU

6

tg128

4.41 ± 0.03

 使用-t 12扩展到12线程,速度也没有明显变化.

gpu nvidia 1660, 生成速度36 tokens / s.

model

size

params

backend

ngl

test

t/s

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CUDA

30

pp512

164.55 ± 0.03

qwen2 7B Q5_K - Medium

5.07 GiB

7.62 B

CUDA

30

tg128

36.38 ± 0.02

http://www.dtcms.com/a/19909.html

相关文章:

  • 计算机组成原理—— 总线系统(十二)
  • pytest测试专题 - 2.1 一种推荐的测试目录结构
  • 编程速递-庆祝Delphi诞生30周年!
  • 2025智能硬件售后服务管理系统选择的六大标准
  • 小项目第一天
  • CAS单点登录(第7版)20.用户界面
  • Centos安装php-8.0.24.tar
  • unity学习41:动画里的曲线curve参数 和 事件 events
  • CAS单点登录(第7版)17.账户注册
  • 深度学习框架探秘|TensorFlow:AI 世界的万能钥匙
  • 安科瑞光伏发电防逆流解决方案——守护电网安全,提升能源效率
  • 算法随笔_51: 表现良好的最长时间段_方法2
  • Java三大特性
  • Uniapp 短视频去水印解析工具开发实现
  • Ubuntu添加桌面快捷方式
  • 2025有哪些关键词优化工具好用
  • XML Schema anyAttribute 元素详解
  • 算法12-贪心算法
  • 解析浏览器中JavaScript与Native交互原理:以WebGPU为例
  • 应用层优秀的共享民宿物联网框架该怎么选?
  • Spring篇--AOP
  • 前端可以不用依赖后端实现导出大数据了
  • C#学习之数据转换
  • python defaultdict用法
  • ios中常见的设计原则和设计模式
  • Hadoop集群安装与配置指南(CentOS 7)
  • 力扣LeetCode: 1742 盒子中小球的最大数量
  • 5-CDE说明
  • buu-jarvisoj_level2_x64-好久不见37
  • Ubuntu 上安装 Elasticsearch 7.6.0