当前位置: 首页 > news >正文

此芯p1开发板使用OpenHarmony时llama.cpp不同优化速度对比(GPU vs CPU)

硬件环境

  • Cix P1 SoC 瑞莎星睿 O6 开发板 + rx580显卡

    • 产品介绍: https://docs.radxa.com/orion/o6/getting-started/introduction
  • OpenHarmony 5.0.0

image.png

使用vulkan后端的llama.cpp (GPU)

image.png

# ./llama-bench -m /data/qwen1_5-0_5b-chat-q2_k.gguf -ngl 100
ggml_vulkan: Found 1 Vulkan devices:
ggml_vulkan: 0 = AMD Radeon RX 580 2048SP (RADV POLARIS10) (radv) | uma: 0 | fp16: 0 | bf16: 0 | warp size: 64 | shared memory                                : 65536 | int dot: 0 | matrix cores: none
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | Vulkan     | 100 |           pp512 |       2425.55 ± 2.33 |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | Vulkan     | 100 |           tg128 |        136.98 ± 7.70 |build: unknown (0)

此时可以观察到 rx580的状态,接近满载。理论上插一张rx7900 xtx 24G也可以的,可惜笔者囊中羞涩。

snapshot_19700101_082211.jpeg

纯cpu跑

# ./llama-bench -m /data/qwen1_5-0_5b-chat-q2_k.gguf
| model                          |       size |     params | backend    | threads |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | --------------: | -------------------: |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | CPU        |      12 |           pp512 |        138.70 ± 0.36 |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | CPU        |      12 |           tg128 |          8.41 ± 0.22 |build: unknown (0)

结论

GPU 优势显著​:Vulkan 后端在端侧推理中实现 ​16–17 倍加速,尤其适合高吞吐任务。

http://www.dtcms.com/a/318845.html

相关文章:

  • 掌握工程化固件烧录,开启你的技术进阶之路-FPGA ISE(xilinx)
  • 微软推出“愤怒计划“:利用AI工具实现恶意软件自主分类
  • Daemon Tools for Mac —— 专业虚拟光驱与磁盘映像工具
  • 手机控制断路器:智能家居安全用电的新篇章
  • Casrel关系抽取
  • 如何快速开发符合Matter标准的智能家居设备?
  • 在 openEuler 24.03 (LTS) 上安装 FFmpeg 的完整指南
  • 接入小甲鱼数字人API教程【详解】
  • 物联网架构全解析:华为“1+2+1”与格行随身WiFi,技术如何定义未来生活?
  • 优选算法 力扣 LCR 179. 查找总价格为目标值的两个商品 双指针降低时间复杂度 C++题解 每日一题
  • 界面组件DevExpress WPF中文教程:网格视图数据布局 - 紧凑模式
  • 代企业开发钉钉数据对接
  • hadoop HDFS 重置详细步骤
  • [bug]AttributeError: module ‘typing_extensions‘ has no attribute ‘TypeVar‘
  • 人工智能的20大应用
  • 图论(1):图数据结构
  • 第二十七天(数据结构:图)
  • uni-app vue3 小程序接入 aliyun-rtc-wx-sdk
  • Android 之 Jetpack- Room
  • 力扣238:除自身之外数组的乘积
  • 快速开发实践
  • 使用Spring Boot + Angular构建安全的登录注册系统
  • 十八、MySQL-DML-数据操作-插入(增加)、更新(修改)、删除
  • LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化
  • 本地组策略编辑器无法打开(gpedit.msc命令异常)
  • 编程之线性代数矩阵和概率论统计知识回顾
  • OpenCV 图像处理基础操作指南(一)
  • 基于人眼视觉特性的相关图像增强基础知识介绍
  • C++入门自学Day7-- String类的使用(续)
  • windows_exporter-0.13.0-amd64.exe 怎么安装?Windows服务安装与运行方法