当前位置: 首页 > news >正文

第四十五篇-Tesla P40+QWQ-32B部署与测试

环境

系统:CentOS-7
CPU: 14C28T
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26

Ollama

ollama run qwq:32b --verbose

显存

Fri Mar  7 21:26:43 2025
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03             Driver Version: 535.129.03   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla P40                      Off | 00000000:03:00.0 Off |                    0 |
| N/A   41C    P0             176W / 250W |  21446MiB / 23040MiB |     95%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      2921      C   ...unners/cuda_v12/ollama_llama_server    21444MiB |
+---------------------------------------------------------------------------------------+

速度

total duration:       14.132483694s
load duration:        46.562043ms
prompt eval count:    28 token(s)
prompt eval duration: 293ms
prompt eval rate:     95.56 tokens/s
eval count:           131 token(s)
eval duration:        13.791s
eval rate:            9.50 tokens/s

总结

速度还是可以的,一般问题都OK的,其他性能还要再测测

相关文章:

  • C++ primer plus 第七节 函数探幽完结版
  • 【数据分析】转录组基因表达的KEGG通路富集分析教程
  • 第18周:YOLOv5-C3模块实现
  • 用Kotlin写一个Android闹钟
  • 边缘智联新基建:5G+边缘计算重塑制造业神经末梢
  • C语言 第三章 函数(2)
  • Spring 构造器注入和setter注入的比较
  • 【Python修仙编程】(二) Python3灵源初探(7)
  • c++ 调用 gurobi 库,cmake,mac
  • 云原生边缘计算:重塑分布式智能的时空边界
  • 在16卡服务器上使用最新版的CUDA和驱动训练`llama - 2 - 7b`和`llama - 2 - 70b`模型,并生成训练指标数据
  • MyBatis-Plus 使用技巧
  • 通过 Python 实现“机器学习”小项目教程案例:鸢尾花分类
  • 前端数据模拟 Mock.js 学习笔记
  • 基于Spring Boot的高校就业招聘系统的设计与实现(LW+源码+讲解)
  • Python关键字参数避坑指南:关键字参数开发中的参数顺序,参数覆盖,动态参数怎么使用?详细使用教程!
  • 基于51单片机的智能水箱控制系统proteus仿真
  • 信道编码中的硬判决与软判决
  • 高效数据管理:WPF中实现带全选功能的DataGrid复选框列
  • 从李佳琦团队看新型用工:灵活就业如何重构组织架构?
  • 湖南网站建设的公司排名/关键词seo排名优化推荐
  • 做youtube视频网站/苏州seo关键词排名
  • 十大b站不收费/武汉网站运营专业乐云seo
  • 西安搜建站科技网站/建站seo是什么
  • 国内大的做网站的公司/网络seo培训
  • 国外的电商网站有哪些方面/2022年每日新闻摘抄10一30字