当前位置: 首页 > wzjs >正文

怎么区别做pc端和手机端网站怎么制作个人网站

怎么区别做pc端和手机端网站,怎么制作个人网站,com域名续费多少钱,松江新城投资建设发展有限公司网站当我们部署了大模型并对外提供服务时,我们通常都想了解一下大模型能够支持多少个并发访问,在不同的并发数下,模型的性能如何。了解这些信息有助于我们更好的对算力进行评估,为用户带来更好的性能体验。 大模型通常是通过API接口的…

当我们部署了大模型并对外提供服务时,我们通常都想了解一下大模型能够支持多少个并发访问,在不同的并发数下,模型的性能如何。了解这些信息有助于我们更好的对算力进行评估,为用户带来更好的性能体验。

大模型通常是通过API接口的方式对外提供访问,因此在做性能测试的时候,很自然的我们会想到通过设置并发调用接口来衡量模型的性能。Python有一个很好的做性能测试的库叫做Locust,这是一个开源的性能测试框架,专为模拟高并发用户负载而设计。它以轻量级、灵活性和分布式扩展能力著称,允许开发者通过编写纯Python代码定义测试场景,并通过Web界面实时监控系统性能表现。Locust 使用gevent 库实现协程(coroutine),避免了传统线程/进程的资源调度开销,单台机器可模拟数千并发用户,这种非阻塞I/O模型使其在高并发场景下效率显著优于JMeter等工具。

通常衡量大模型的性能有两个指标,一个是TTFT,即首Token生成时间,测量模型从收到用户请求到生成回复的第一个Token的时间。另一个指标是TPUT,衡量模型每秒生成Token的数量。

首先我先启动一个大模型,通过VLLM来启动模型的服务化接口,VLLM提供了OpenAI兼容的API格式。

然后编写一个python程序llm_test.py,代码如下:

from locust import HttpUser, task
from openai import OpenAI
import timeclass OpenAIChatUser(HttpUser):host = "http://localhost:8000/v1"  def __init__(self, *args, **kwargs):super().__init__(*args, **kwargs)self.client = OpenAI(api_key="sk-your-api-key",base_url=self.host)@taskdef test_streaming_api(self):start_time = time.time()first_token_received = Falsetokens = 0try:stream = self.client.chat.completions.create(model="Qwen2.5-3B-Instruct-AWQ",messages=[{"role": "user", "content": "解释量子纠缠"}],stream=True)for chunk in stream:# 检测首个有效Tokenif chunk.choices[0].delta.content:if not first_token_received:first_token_time = time.time() - start_timefirst_token_received = Trueself.environment.events.request.fire(request_type="TTFT",name="first_token",response_time=first_token_time * 1000,  # 转毫秒response_length=1)# 统计Token总数tokens += len(chunk.choices[0].delta.content.split())# 记录总耗时与吞吐量total_time = time.time() - start_timeself.environment.events.request.fire(request_type="TPUT",name="throughput",response_time=tokens / total_time,response_length=tokens  # tokens/s)except Exception as e:self.environment.events.request.fire(request_type="ERROR",name="stream_error",response_time=0,exception=e)

以上代码中,定义一个继承HttpUser的类,@task装饰器定义了一个测试的任务。self.environment.events.request.fire表示当一个Http Request执行完毕后触发的事件。这里定义了两个Request事件,分别代表TTFT和TPUT。

这里只是简单的一个测试,我们可以改进一下,例如输入不同字数的文章,让大模型进行文章摘要,测试在不同的输入长度下的性能。

运行以下命令

locust -f llm_test.py

然后打开locust的web界面,在界面中启动测试,我们可以选择模拟多少并发用户数,以及测试多长时间,如下图:

这里设置了模拟10个并发用户访问,每秒增加5个用户,测试1分钟。

测试结果如下:

可见在10个用户并发访问下,首Token平均生成时间为67ms, 每秒生成Token的Throughput为70个。

修改测试条件,模拟20个用户并发访问,每秒增加5个用户,测试1分钟,测试结果如下:

可见在20个用户并发访问下,首Token平均生成时间为79ms, 每秒生成Token的Throughput为55个。 

通过Locust,可以快速的帮助我们了解大模型的性能。

http://www.dtcms.com/wzjs/11584.html

相关文章:

  • 网站的登录注册页面怎么做的核心关键词是什么意思
  • 腾讯建站模板百度收录查询入口
  • 英文网站建设厦门seo专业培训学校
  • 忻州网站建设太原seo关键词排名
  • 上海网站建设明细报价表seo关键词排名优化制作
  • html5网页开发工具pc优化工具
  • 查品牌的软件有什么河南百度关键词优化排名软件
  • 深圳福田在线北京外贸网站优化
  • 做转录组kog网站网络营销产品策略
  • app开发报价单模板关键词自助优化
  • node.js做直播网站电子商务网站推广
  • 十大电商代运营排名优化设计英语
  • 上海自聊自做网站关键词排名点击软件推荐
  • 中山微网站建设报价百度的营销中心上班怎么样
  • 卫生局网站建设实施方案十大seo公司
  • 景区官方网站建设方案百度搜索推广的五大优势
  • 什么网站可以做任务挣钱的经营管理培训课程
  • 鹏牛网做网站怎么样新东方烹饪培训学校
  • 学做网站要会哪些百度客服联系方式
  • 专业专业的网站开发微信小程序建站
  • 新网站如何做营销百度霸屏推广多少钱一个月
  • 照明灯具类企业网站免费的网页设计成品下载
  • wordpress如何设水印图片东莞百度seo电话
  • 怎样做分类网站化工网站关键词优化
  • 统计 网站关键字 布局亚马逊seo推广
  • 信誉好的龙岗网站制作站长工具seo综合查询工具
  • 网站后台管理系统 静态页面seo网站建设优化什么意思
  • 个人网站名称有哪些河南网站建设优化技术
  • 素马网站建设费用差距百度快照没有了用什么代替了
  • 微信运营网站建设一句简短走心文案