当前位置：首页 > wzjs >正文

做商城网站需要什么公司网站推广运营

wzjs 2025/7/26 8:35:54

做商城网站需要什么,公司网站推广运营,昆明网站建设价目表,wordpress获取登录用户的名字来自B站AIGC科技官的"vLLM简介"视频截图 0. 引言1. vLLM简介2. vLLM启动日志解析3. vLLM压力测试4.vLLM分布式推理 0. 引言这篇文章主要记录了B站AIGC科技官的"vLLM简介"视频截图。 1. vLLM简介笔记 From Up主： KV Cache的大小与序列长度的…

来自B站AIGC科技官的"vLLM简介"视频截图

0. 引言
1. vLLM简介
2. vLLM启动日志解析
3. vLLM压力测试
4.vLLM分布式推理

0. 引言

这篇文章主要记录了B站AIGC科技官的"vLLM简介"视频截图。

1. vLLM简介

在这里插入图片描述

在这里插入图片描述

笔记 From Up主：

KV Cache的大小与序列长度的大小是成正比的

在这里插入图片描述

2. vLLM启动日志解析

在这里插入图片描述

3. vLLM压力测试

在这里插入图片描述

我本机测试的示例代码，

import requests
import time# 接口配置（根据实际部署调整）
API_URL = "http://192.168.31.15:8000/v1/completions"
MODEL_NAME = "gpt-4o"  # 与启动命令的 --served-model-name 一致
HEADERS = {"Content-Type": "application/json", "Authorization": "Bearer sk-123456"}def test_token_rate(prompt: str, max_tokens: int = 512):"""测试单次请求的 Token 速率"""payload = {"model": "gpt-4o","prompt": prompt,"stream": True,  # 启用流式响应以统计 Token 延迟"max_tokens": max_tokens,"temperature": 0.7}start_time = time.perf_counter()first_token_received = Falsetoken_count = 0# 发送流式请求response = requests.post(API_URL, json=payload, headers=HEADERS, stream=True)for chunk in response.iter_lines():if chunk:chunk_str = chunk.decode("utf-8").strip()if chunk_str.startswith("data: "):# 统计首 Token 到达时间if not first_token_received:first_token_time = time.perf_counter()first_token_received = True# 累计生成 Token 数量token_count += 1end_time = time.perf_counter()return {"total_time": end_time - start_time,"first_token_latency": first_token_time - start_time if first_token_received else 0,"tokens_per_sec": token_count / (end_time - start_time)}# 测试执行
prompt = "假设你是唐朝诗人李白，请用七言绝句描述一次雪夜独钓的场景"
result = test_token_rate(prompt)
print(f"首 Token 延迟: {result['first_token_latency']:.2f}s")
print(f"Token 速率: {result['tokens_per_sec']:.2f} tokens/s")

我本机测试的示例结果，

首 Token 延迟: 0.36s
Token 速率: 39.10 tokens/s

在这里插入图片描述

我本机测试的示例代码，

import requests
import time
from concurrent.futures import ThreadPoolExecutor, as_completed# 配置参数
API_URL = "http://192.168.31.15:8000/v1/completions"
MODEL_NAME = "gpt-4o"  # 与 vLLM 启动参数 --served-model-name 一致
CONCURRENCY = 10  # 并发请求数
MAX_TOKENS = 512  # 每个请求生成的最大 Token 数
TEST_PROMPT = "请用鲁迅的文学风格描写一次深夜咖啡馆的场景"
HEADERS = {"Content-Type": "application/json", "Authorization": "Bearer sk-123456"}def send_request(request_id: int):"""单个请求测试函数"""payload = {"model": "gpt-4o","prompt": TEST_PROMPT,"stream": True,"max_tokens": MAX_TOKENS,"temperature": 0.8}start_time = time.perf_counter()first_token_time = Nonetoken_count = 0try:response = requests.post(API_URL, json=payload, headers=HEADERS, stream=True)for chunk in response.iter_lines():if chunk:chunk_str = chunk.decode().strip()if chunk_str.startswith("data: "):if not first_token_time:first_token_time = time.perf_counter()token_count += 1except Exception as e:print(f"请求 {request_id} 失败: {str(e)}")return Noneend_time = time.perf_counter()return {"request_id": request_id,"total_time": end_time - start_time,"first_token_latency": first_token_time - start_time if first_token_time else 0,"tokens": token_count}def run_concurrent_test():"""执行并发测试"""results = []with ThreadPoolExecutor(max_workers=CONCURRENCY) as executor:futures = {executor.submit(send_request, i): i for i in range(CONCURRENCY)}for future in as_completed(futures):result = future.result()if result:results.append(result)# 统计结果total_tokens = sum(r["tokens"] for r in results)total_time = max(r["total_time"] for r in results)  # 取最长耗时作为总时间avg_first_latency = sum(r["first_token_latency"] for r in results) / len(results)print(f"\n测试报告: ")print(f"并发请求数: {CONCURRENCY}")print(f"总生成 Token 数: {total_tokens}")print(f"平均首 Token 延迟: {avg_first_latency:.2f}s")print(f"系统吞吐量: {total_tokens / total_time:.2f} tokens/s")if __name__ == "__main__":run_concurrent_test()

我本机测试的示例结果，

测试报告: 
并发请求数: 10
总生成 Token 数: 5130
平均首 Token 延迟: 0.39s
系统吞吐量: 355.00 tokens/s

在这里插入图片描述

4.vLLM分布式推理

在这里插入图片描述

在这里插入图片描述
未完待续！！！

原视频链接：B站AIGC科技官 vLLM简介

查看全文

http://www.dtcms.com/wzjs/69271.html

高端h5网站开发汕头seo按天付费

网站关键词如何做竞价西安危机公关公司

通付盾建设公司网站武汉网站开发公司

校庆专题网站建设方案福建百度seo排名点击软件

js特效网站短视频营销的优势

广州金将令做网站怎么样如何seo推广

免费制作软件app的网站谷歌搜索广告

查看网站有没有做301外贸电商平台哪个网站最好

用口做love的网站郑州seo网站排名

网页游戏网站大全免费软件关键词排名关键词优化

视差效果网站网站关键词怎么设置

dw如何做网站推广小程序拿佣金

上市公司网站建设报价青岛seo精灵

深圳南山做网站的公司百度旗下产品

许昌市住房和城乡建设厅网站百度浏览器下载安装

租网站需要多少钱网页设计成品源代码

怎么做返利网之类的网站谷歌seo网站推广怎么做优化

电脑可以做网站服务器么全网最低价24小时自助下单平台

鹰潭市网站建设公司营销网店推广的软文

三大电商平台是哪三个优化大师是干什么的

美工网站设计网络营销和网站推广的区别

软装设计师培训机构优化网络的软件

广州网站搭建多少钱如何提升百度关键词排名

合肥市城乡建设委员网站湛江百度seo公司

网站制作和app制作软文发布的平台与板块

网站页面用什么软件做微博营销策略

wordpress menu css标题优化

wordpress安装主题失败广州网页seo排名

一般网站的宽度是多少上海seo推广方法

网站做前端营销策划公司的经营范围

来自B站AIGC科技官的"vLLM简介"视频截图

0. 引言

1. vLLM简介

2. vLLM启动日志解析

3. vLLM压力测试

4.vLLM分布式推理

相关文章：