当前位置：首页 > wzjs >正文

怎么自己做网站服务器seo技术交流

wzjs 2025/8/17 13:37:15

怎么自己做网站服务器,seo技术交流,专业建设网站技术,锦州网站建设资讯来自B站AIGC科技官的"vLLM简介"视频截图 0. 引言1. vLLM简介2. vLLM启动日志解析3. vLLM压力测试4.vLLM分布式推理 0. 引言这篇文章主要记录了B站AIGC科技官的"vLLM简介"视频截图。 1. vLLM简介笔记 From Up主： KV Cache的大小与序列长度的…

来自B站AIGC科技官的"vLLM简介"视频截图

0. 引言
1. vLLM简介
2. vLLM启动日志解析
3. vLLM压力测试
4.vLLM分布式推理

0. 引言

这篇文章主要记录了B站AIGC科技官的"vLLM简介"视频截图。

1. vLLM简介

在这里插入图片描述

在这里插入图片描述

笔记 From Up主：

KV Cache的大小与序列长度的大小是成正比的

在这里插入图片描述

2. vLLM启动日志解析

在这里插入图片描述

3. vLLM压力测试

在这里插入图片描述

我本机测试的示例代码，

import requests
import time# 接口配置（根据实际部署调整）
API_URL = "http://192.168.31.15:8000/v1/completions"
MODEL_NAME = "gpt-4o"  # 与启动命令的 --served-model-name 一致
HEADERS = {"Content-Type": "application/json", "Authorization": "Bearer sk-123456"}def test_token_rate(prompt: str, max_tokens: int = 512):"""测试单次请求的 Token 速率"""payload = {"model": "gpt-4o","prompt": prompt,"stream": True,  # 启用流式响应以统计 Token 延迟"max_tokens": max_tokens,"temperature": 0.7}start_time = time.perf_counter()first_token_received = Falsetoken_count = 0# 发送流式请求response = requests.post(API_URL, json=payload, headers=HEADERS, stream=True)for chunk in response.iter_lines():if chunk:chunk_str = chunk.decode("utf-8").strip()if chunk_str.startswith("data: "):# 统计首 Token 到达时间if not first_token_received:first_token_time = time.perf_counter()first_token_received = True# 累计生成 Token 数量token_count += 1end_time = time.perf_counter()return {"total_time": end_time - start_time,"first_token_latency": first_token_time - start_time if first_token_received else 0,"tokens_per_sec": token_count / (end_time - start_time)}# 测试执行
prompt = "假设你是唐朝诗人李白，请用七言绝句描述一次雪夜独钓的场景"
result = test_token_rate(prompt)
print(f"首 Token 延迟: {result['first_token_latency']:.2f}s")
print(f"Token 速率: {result['tokens_per_sec']:.2f} tokens/s")

我本机测试的示例结果，

首 Token 延迟: 0.36s
Token 速率: 39.10 tokens/s

在这里插入图片描述

我本机测试的示例代码，

import requests
import time
from concurrent.futures import ThreadPoolExecutor, as_completed# 配置参数
API_URL = "http://192.168.31.15:8000/v1/completions"
MODEL_NAME = "gpt-4o"  # 与 vLLM 启动参数 --served-model-name 一致
CONCURRENCY = 10  # 并发请求数
MAX_TOKENS = 512  # 每个请求生成的最大 Token 数
TEST_PROMPT = "请用鲁迅的文学风格描写一次深夜咖啡馆的场景"
HEADERS = {"Content-Type": "application/json", "Authorization": "Bearer sk-123456"}def send_request(request_id: int):"""单个请求测试函数"""payload = {"model": "gpt-4o","prompt": TEST_PROMPT,"stream": True,"max_tokens": MAX_TOKENS,"temperature": 0.8}start_time = time.perf_counter()first_token_time = Nonetoken_count = 0try:response = requests.post(API_URL, json=payload, headers=HEADERS, stream=True)for chunk in response.iter_lines():if chunk:chunk_str = chunk.decode().strip()if chunk_str.startswith("data: "):if not first_token_time:first_token_time = time.perf_counter()token_count += 1except Exception as e:print(f"请求 {request_id} 失败: {str(e)}")return Noneend_time = time.perf_counter()return {"request_id": request_id,"total_time": end_time - start_time,"first_token_latency": first_token_time - start_time if first_token_time else 0,"tokens": token_count}def run_concurrent_test():"""执行并发测试"""results = []with ThreadPoolExecutor(max_workers=CONCURRENCY) as executor:futures = {executor.submit(send_request, i): i for i in range(CONCURRENCY)}for future in as_completed(futures):result = future.result()if result:results.append(result)# 统计结果total_tokens = sum(r["tokens"] for r in results)total_time = max(r["total_time"] for r in results)  # 取最长耗时作为总时间avg_first_latency = sum(r["first_token_latency"] for r in results) / len(results)print(f"\n测试报告: ")print(f"并发请求数: {CONCURRENCY}")print(f"总生成 Token 数: {total_tokens}")print(f"平均首 Token 延迟: {avg_first_latency:.2f}s")print(f"系统吞吐量: {total_tokens / total_time:.2f} tokens/s")if __name__ == "__main__":run_concurrent_test()

我本机测试的示例结果，

测试报告: 
并发请求数: 10
总生成 Token 数: 5130
平均首 Token 延迟: 0.39s
系统吞吐量: 355.00 tokens/s

在这里插入图片描述

4.vLLM分布式推理

在这里插入图片描述

在这里插入图片描述
未完待续！！！

原视频链接：B站AIGC科技官 vLLM简介

查看全文

http://www.dtcms.com/wzjs/380287.html

高端网站设计供应商360搜索引擎首页

生物医药基地网站建设北京做网站公司哪家好

求生之路2怎么做非官方网站发帖秒收录的网站

做二手货车都做什么网站最新消息

网站制作网站建设如何建立网址

固定ip 建网站seo搜索引擎优化实训报告

2345电脑版seo优化网站优化排名

烟台百度网站排名seo霸屏

做服装商城网站论文seo学校

江苏网站建设网络公司百度推广app下载

企业网站推广的首选办法是seo推广官网

wordpress模板用法宁波网站推广优化外包

网站解析记录值如何推广引流

阜阳手机网站建设互联网营销师报名官网

如何做发表文章的网站p2p万能搜索引擎

手机端网站建设方案代写文案平台

景德镇市建设局网站seo数据统计分析工具有哪些

做机械设备类网站用什么颜色好新闻头条最新消息今天

c2b模式的电商平台有哪些seo教程自学网

网页设计心得体会报告长沙网站seo优化

ruby网站开发工程师招聘汕头seo外包平台

南京高端网站制作关键词排名点击软件网站

免费网站收录seo站群优化

4d网站广告图用什么做的网页设计与制作作业成品

简单的美食网站模板免费下载sem是什么意思呢

用凡科做网站好弄吗西地那非

创建个人网站多少钱淘大象关键词排名查询

网站开发四个重点免费做做网站

怎样登陆网站后台武汉新一轮疫情

网站建设亿玛酷可靠5软文广告范文

来自B站AIGC科技官的"vLLM简介"视频截图

0. 引言

1. vLLM简介

2. vLLM启动日志解析

3. vLLM压力测试

4.vLLM分布式推理

相关文章：