当前位置：首页 > wzjs >正文

mmd怎么做下载网站重庆高端seo

wzjs 2025/8/14 5:24:38

mmd怎么做下载网站,重庆高端seo,网站建设工具的实验心得,汕头企业网站公司来自B站AIGC科技官的"vLLM简介"视频截图 0. 引言1. vLLM简介2. vLLM启动日志解析3. vLLM压力测试4.vLLM分布式推理 0. 引言这篇文章主要记录了B站AIGC科技官的"vLLM简介"视频截图。 1. vLLM简介笔记 From Up主： KV Cache的大小与序列长度的…

来自B站AIGC科技官的"vLLM简介"视频截图

0. 引言
1. vLLM简介
2. vLLM启动日志解析
3. vLLM压力测试
4.vLLM分布式推理

0. 引言

这篇文章主要记录了B站AIGC科技官的"vLLM简介"视频截图。

1. vLLM简介

在这里插入图片描述

在这里插入图片描述

笔记 From Up主：

KV Cache的大小与序列长度的大小是成正比的

在这里插入图片描述

2. vLLM启动日志解析

在这里插入图片描述

3. vLLM压力测试

在这里插入图片描述

我本机测试的示例代码，

import requests
import time# 接口配置（根据实际部署调整）
API_URL = "http://192.168.31.15:8000/v1/completions"
MODEL_NAME = "gpt-4o"  # 与启动命令的 --served-model-name 一致
HEADERS = {"Content-Type": "application/json", "Authorization": "Bearer sk-123456"}def test_token_rate(prompt: str, max_tokens: int = 512):"""测试单次请求的 Token 速率"""payload = {"model": "gpt-4o","prompt": prompt,"stream": True,  # 启用流式响应以统计 Token 延迟"max_tokens": max_tokens,"temperature": 0.7}start_time = time.perf_counter()first_token_received = Falsetoken_count = 0# 发送流式请求response = requests.post(API_URL, json=payload, headers=HEADERS, stream=True)for chunk in response.iter_lines():if chunk:chunk_str = chunk.decode("utf-8").strip()if chunk_str.startswith("data: "):# 统计首 Token 到达时间if not first_token_received:first_token_time = time.perf_counter()first_token_received = True# 累计生成 Token 数量token_count += 1end_time = time.perf_counter()return {"total_time": end_time - start_time,"first_token_latency": first_token_time - start_time if first_token_received else 0,"tokens_per_sec": token_count / (end_time - start_time)}# 测试执行
prompt = "假设你是唐朝诗人李白，请用七言绝句描述一次雪夜独钓的场景"
result = test_token_rate(prompt)
print(f"首 Token 延迟: {result['first_token_latency']:.2f}s")
print(f"Token 速率: {result['tokens_per_sec']:.2f} tokens/s")

我本机测试的示例结果，

首 Token 延迟: 0.36s
Token 速率: 39.10 tokens/s

在这里插入图片描述

我本机测试的示例代码，

import requests
import time
from concurrent.futures import ThreadPoolExecutor, as_completed# 配置参数
API_URL = "http://192.168.31.15:8000/v1/completions"
MODEL_NAME = "gpt-4o"  # 与 vLLM 启动参数 --served-model-name 一致
CONCURRENCY = 10  # 并发请求数
MAX_TOKENS = 512  # 每个请求生成的最大 Token 数
TEST_PROMPT = "请用鲁迅的文学风格描写一次深夜咖啡馆的场景"
HEADERS = {"Content-Type": "application/json", "Authorization": "Bearer sk-123456"}def send_request(request_id: int):"""单个请求测试函数"""payload = {"model": "gpt-4o","prompt": TEST_PROMPT,"stream": True,"max_tokens": MAX_TOKENS,"temperature": 0.8}start_time = time.perf_counter()first_token_time = Nonetoken_count = 0try:response = requests.post(API_URL, json=payload, headers=HEADERS, stream=True)for chunk in response.iter_lines():if chunk:chunk_str = chunk.decode().strip()if chunk_str.startswith("data: "):if not first_token_time:first_token_time = time.perf_counter()token_count += 1except Exception as e:print(f"请求 {request_id} 失败: {str(e)}")return Noneend_time = time.perf_counter()return {"request_id": request_id,"total_time": end_time - start_time,"first_token_latency": first_token_time - start_time if first_token_time else 0,"tokens": token_count}def run_concurrent_test():"""执行并发测试"""results = []with ThreadPoolExecutor(max_workers=CONCURRENCY) as executor:futures = {executor.submit(send_request, i): i for i in range(CONCURRENCY)}for future in as_completed(futures):result = future.result()if result:results.append(result)# 统计结果total_tokens = sum(r["tokens"] for r in results)total_time = max(r["total_time"] for r in results)  # 取最长耗时作为总时间avg_first_latency = sum(r["first_token_latency"] for r in results) / len(results)print(f"\n测试报告: ")print(f"并发请求数: {CONCURRENCY}")print(f"总生成 Token 数: {total_tokens}")print(f"平均首 Token 延迟: {avg_first_latency:.2f}s")print(f"系统吞吐量: {total_tokens / total_time:.2f} tokens/s")if __name__ == "__main__":run_concurrent_test()

我本机测试的示例结果，

测试报告: 
并发请求数: 10
总生成 Token 数: 5130
平均首 Token 延迟: 0.39s
系统吞吐量: 355.00 tokens/s

在这里插入图片描述

4.vLLM分布式推理

在这里插入图片描述

在这里插入图片描述
未完待续！！！

原视频链接：B站AIGC科技官 vLLM简介

查看全文

http://www.dtcms.com/wzjs/338624.html

设计案例网站谷歌三件套一键安装

电子商城网站开发项目描述微信营销平台系统

怎么做自己的网站后台教程google国外入口

郑州网站建设到诺然公司seo是什么职位

wordpress 三级联动白银网站seo

义乌网站制作公司重庆seo网站

开发网站需求seo技术优化

网站首页地址是什么潍坊今日头条新闻最新

定制网站开发哪家好今天刚刚发生的新闻

郑州七彩网站建设公司下载优化大师并安装

丽水做网站指数是什么

如何用ssm框架做网站软文的目的是什么

普通的旧房装修价格网站建设网络推广seo

衡阳网站建设价格郑州网站建设价格

英文网站如何做关键词微信营销号

网站制作功能多少钱seo课程在哪培训好

焦作网站建设设计app开发网站

温州党建网吉安seo网站快速排名

网站备案是怎么回事四川疫情最新消息

互联网网站建设价格怎么进行推广

哪个网站能找到做夜场的女孩查网站

南通免费网站建设怎么自己创建网址

做网站的专业术语重庆seo网络推广平台

免费的seo网站膝广州seo公司哪个比较好

如何做登录网站google adwords关键词工具

网站开发团队介绍网页版百度云

温州做网站的百度人工客服24小时

做棋盘游戏辅助的网站广州关于进一步优化

昆山网站优化建设网络营销分类

用区块链来做网站seo是什么意思职业

来自B站AIGC科技官的"vLLM简介"视频截图

0. 引言

1. vLLM简介

2. vLLM启动日志解析

3. vLLM压力测试

4.vLLM分布式推理

相关文章：