当前位置: 首页 > news >正文

商业机构的网站是什么酒店网站模板设计方案

商业机构的网站是什么,酒店网站模板设计方案,做网站怎么qq邮箱验证,建设的优质网站以Decode平均时延限制50ms以内为目标,限制非首token时延的极限吞吐的调试方式如下所示。 服务端: “maxBatchSize”调小到卡对应的时延,一般情况下“maxBatchSize”越小,则Decode时延越小。 设置supportSelectBatch为true&#x…

以Decode平均时延限制50ms以内为目标,限制非首token时延的极限吞吐的调试方式如下所示。

  • 服务端:
    “maxBatchSize”调小到卡对应的时延,一般情况下“maxBatchSize”越小,则Decode时延越小。
    设置supportSelectBatch为true,“prefillTimeMsPerReq”和“decodeTimeMsPerReq”按照模型实际平均首token时延和Decode时延进行设置。
  • 客户端:
    按并发数发送请求:客户端Concurrency通常配置为maxBatchSize-1。
    按频率发送请求:则Concurrency可设置为1000,请求发送频率根据实际业务场景或按模型实际QPS设置。

操作步骤

  1. 在裸机中执行以下命令开启CPU高性能模式和透明大页,开启后可提升性能,建议开启。
  • 开启CPU高性能模式,在相同时延约束下,TPS会有~3%的提升。
cpupower -c all frequency-set -g performance
  • 开启透明大页,多次实验的吞吐率结果会更稳定。
echo always > /sys/kernel/mm/transparent_hugepage/enabled
  1. 使用以下命令启动服务,以当前所在Ascend-mindie-service_{version}_linux-{arch}目录为例。
./bin/mindieservice_daemon

回显如下则说明启动成功。

Daemon start success!
  1. 计算出“maxBatchSize”的取值范围为[362,1088],设置初始值为435;“maxPrefillBatchSize”参数的值设置为“maxBatchSize”值的一半,取值为217。
  2. 配置完成后,用户可使用HTTPS客户端(Linux curl命令,Postman工具等)发送HTTPS请求,此处以Linux curl命令为例进行说明。
    重开一个窗口,使用以下命令发送请求,获取当前DecodeTime的平均值(Average),如图2所示,此时Decode平均时延为60.1889ms。
benchmark \
--DatasetPath "/{数据集路径}/GSM8K" \
--DatasetType "gsm8k" \
--ModelName LLaMa3-8B \
--ModelPath "/{模型路径}/LLaMa3-8B" \
--TestType client \
--Http https://{ipAddress}:{port} \
--ManagementHttp https://{managementIpAddress}:{managementPort}  \
--Concurrency 1000 \
--TaskKind stream \
--Tokenizer True \
--MaxOutputLen 512

结果超过了Decode平均时延为50ms的限制,所以需要调小“maxBatchSize”的值继续调试。

  1. 设置“maxBatchSize”的值为300,“maxPrefillBatchSize”参数的值设置为150。继续观察Decode平均时延,执行结果decode平均时延为46.9689ms。

以上结果可以看到Decode平均时延满足50ms以内的限制,但是还未接近50ms,所以需要调大“maxBatchSize”的值继续进行调试。

  1. 设置“maxBatchSize”的值为350,“maxPrefillBatchSize”参数的值设置为175。继续观察Decode平均时延,执行结果decode平均时延为49.846ms。

结果可以看到Decode平均时延已经很接近50ms,此时几乎已达到限制Decode时延下的最大吞吐量。如需获取Decode平均时延更接近50ms时的“maxBatchSize”值,请根据以上操作步骤继续调试。

http://www.dtcms.com/a/415016.html

相关文章:

  • 【SpringAI中Chat-Client用法】
  • Python 数学公式构建海洋不明生物(好像是水母)动画 - 简谐振动
  • 宁波市江北区建设局网站上海php网站开发
  • Linux面试题及详细答案 120道(61-75)-- 文件系统与存储
  • 韶关住房和城乡建设局网站气血不足做网站
  • 橱柜网站建设公司建设网站的收费
  • 融资路演 AI 速成 72 小时实战指南(抓风口→做PPT→补漏洞)
  • JUC并发编程:共享模型之管程与悲观锁(synchronized)详解
  • php基础-文件包含(第13天)
  • STM32智能加湿器
  • 网站开发管理nodejs网站开发教程
  • webrtc弱网-TrendlineEstimator类源码分析与算法原理
  • RocketMQ 消息堆积:快速定位、处理与预防方案
  • 深圳网站建设制作开发咨询邯郸网站建设
  • P3051题解
  • 想给孩子找点题做 都有什么网站化学课件
  • 【2026计算机毕业设计】基于Springboot的汉服交流的微信小程序
  • uutils coreutils - GNU coreutils 的 Rust 跨平台实现
  • 如何在阿里巴巴上做网站去哪网站备案吗
  • 软考中级-软件设计师(五)
  • 零基础学Docker(5)--容器数据卷
  • list列表
  • 团购网站做摄影网站编程开发
  • Kurt-Blender零基础教程:第4章:粒子篇
  • Qt常用控件之QTextEdit
  • ImageHash - Python 图像哈希库
  • 初识 Vue
  • 做网站销售水果上海建设安全协会网站
  • 正能量视频素材免费下载网站现代营销手段有哪些
  • Prj11-8088单板机C语言大综合(一)