当前位置: 首页 > wzjs >正文

做图神器的网站跨境电商关键词工具

做图神器的网站,跨境电商关键词工具,网站建设图片上传操作,南沙移动网站建设前言 随着大模型应用场景的不断拓展,arm cpu 凭借其独特优势在大模型推理领域的重要性日益凸显。它在性能、功耗、架构适配等多方面发挥关键作用,推动大模型在不同场景落地 1. CPU对比 星睿 O6 CPU 采用 Armv9 架构,集成了 Armv9 CPU 核心…

在这里插入图片描述

前言

随着大模型应用场景的不断拓展,arm cpu 凭借其独特优势在大模型推理领域的重要性日益凸显。它在性能、功耗、架构适配等多方面发挥关键作用,推动大模型在不同场景落地

1. CPU对比

星睿 O6 CPU 采用 Armv9 架构,集成了 Arm®v9 CPU 核心、Arm Immortalis™ GPU 及安谋科技 “周易” NPU 等。其中,“周易” NPU 算力可达 30TOPS,在处理 AI 相关任务时,异构的架构能让 CPU、GPU、NPU 协同工作,加速 AI 模型的运行。骁龙 8 Elite 采用 2+6 架构设计,首次运用专为智能手机打造的第二代自研 Oryon CPU 架构。两颗超大核频率为 4.32GHz,六颗大核频率为 3.53GHz,每个 CPU 丛集都配备了较大缓存,还引入全新的数据时序预取器以及全新的性能内核设计,在通用计算性能上表现强劲。

这里我们让二者通过llama.cpp跑同样模型的推理速度对比

2. 星瑞O6跑llama.cpp

参阅:https://aijishu.com/a/1060000000507877

3. 骁龙8 Elite跑llama.cpp

3.1 依赖安装

## 1.安装[termux](https://termux.dev/en/)app,配置ssh,## 2.安装编译环境
apt update && apt upgrade -y
apt install git cmake

3.2 不开启klelidiAI优化

cmake -B build
cmake --build build --config Release -j

3.2 验证模型正确性

还是使用“星瑞” O6 评测 —— CPU llama.cpp不同优化速度对比转换的模型

taskset -c 0,3,4,5,6,7 ./build_kle/bin/llama-cli -m asserts/Qwen2.5-3B-Instruct-Q4_0.gguf -c 4096 -t 6 --conversation

打印信息

> hello
Hello! How can I assist you today? Do you have any questions or topics you'd like to discuss?> 
llama_perf_sampler_print:    sampling time =       2.79 ms /    32 runs   (    0.09 ms per token, 11477.76 tokens per second)
llama_perf_context_print:        load time =     498.94 ms
llama_perf_context_print: prompt eval time =     592.82 ms /     9 tokens (   65.87 ms per token,    15.18 tokens per second)
llama_perf_context_print:        eval time =    1711.00 ms /    22 runs   (   77.77 ms per token,    12.86 tokens per second)
llama_perf_context_print:       total time =    6498.13 ms /    31 tokens
Interrupted by user

3.3 不开启klelidiAI优化的benchmark

taskset -c 0,1,2,3,4,5,6,7 ./build/bin/llama-bench -m asserts/Qwen2.5-3B-Instruct-Q4_0.gguf -p 128 -n 128 -t 8

用[0,2,3,4,5,6,7]7个核心的结果

modelsizeparamsbackendthreadstestt/s
qwen2 3B Q4_01.69 GiB3.09 BCPU7pp12863.59 ± 0.31
qwen2 3B Q4_01.69 GiB3.09 BCPU7tg12810.87 ± 0.37

用8个核心的结果

modelsizeparamsbackendthreadstestt/s
qwen2 3B Q4_01.69 GiB3.09 BCPU8pp12872.39 ± 1.43
qwen2 3B Q4_01.69 GiB3.09 BCPU8tg1289.99 ± 1.02

3.5 开启kleidiai优化的benchmark

kleidiai已经集成到llama.cpp的后端,只需要编译时给定正确的选项就行。

cmake -B build_kle -DGGML_CPU_KLEIDIAI=ON
cmake --build build_kle --config Release -j

benchmark命令: taskset -c 0,2,3,4,5,6,7 ./build_kle/bin/llama-bench -m asserts/Qwen2.5-3B-Instruct-Q4_0.gguf -p 128 -n 128 -t 7

用[0,2,3,4,5,6,7]7个核心的结果

modelsizeparamsbackendthreadstestt/s
qwen2 3B Q4_01.69 GiB3.09 BCPU7pp12861.55 ± 0.10
qwen2 3B Q4_01.69 GiB3.09 BCPU7tg12810.41 ± 0.13

用8个核心的结果

modelsizeparamsbackendthreadstestt/s
qwen2 3B Q4_01.69 GiB3.09 BCPU8pp12869.05 ± 0.88
qwen2 3B Q4_01.69 GiB3.09 BCPU8tg1289.68 ± 0.16

打印中有load_tensors: CPU_KLEIDIAI model buffer size = 1488.38 MiBKLEIDIAI = 1表明编译选项正确打开。

4.总结

从推理速度来看:星瑞O6在同样的核心数量时,推理速度更快。而且星瑞O6共有12个CPU核。

5.疑问

  • 从主频来看高通的主频更高,理论上推理速度应该更快。
  • 不知道用高通的qnn cpu后端能否比llama.cpp推理更快。
http://www.dtcms.com/wzjs/243664.html

相关文章:

  • wordpress 审批百度seo关键词排名优化工具
  • wordpress设置成宋体搜索引擎优化的五个方面
  • 东莞市手机网站百度如何投放广告
  • wordpress 加载图片不显示图片女生seo专员很难吗为什么
  • 和文化有关的吉网站建设模板搜索引擎优化seo培训
  • 学做家常菜的网站 知乎产品宣传方式有哪些
  • 装修行业 网站建设做百度线上推广
  • 售房网站开发 .net百度网盘客服电话
  • wordpress大学主题郑州纯手工seo
  • 建设厅投诉网站首页百度seo关键词优化费用
  • 邮件模板网站网络营销的主要方式和技巧
  • 以下工具属于网站设计工具的是百度统计手机app
  • 商品网站开发需求表站长工具手机综合查询
  • 淘宝网店开店网站建设b2b自动发布信息软件
  • 网站做搜索关键字好吗深圳排名seo
  • 全屏网站网址汕头网站建设优化
  • 佛山网站建设公司排行搜狗收录提交入口网址
  • asp.net门户网站项目怎么做网页设计与制作学什么
  • 莱芜亓家网站软文街
  • 给菠菜网站做支付自制网页
  • 网站源码下载百度图片识别搜索
  • 国外建站程序天天seo伪原创工具
  • 增加收录网站seo网站建设
  • 电子网站建设价格bt种子磁力搜索引擎
  • 怎么在服务器上面建设网站网站在线客服系统 免费
  • 做银行设计有好的网站参考吗十大少儿编程教育品牌
  • 政府门户网站建设意义搜索引擎关键词怎么选
  • html5响应式网站模版百度一下你就知道了
  • 佛山网站建设多少钱站内关键词排名优化软件
  • 做营销型网站服务南京网站设计优化公司