当前位置：首页 > wzjs >正文

asp网站开发源码wordpress连接设置方法

wzjs 2025/9/4 21:53:57

asp网站开发源码,wordpress连接设置方法,怎么自己制作网站链接,超链接到网站怎么做来自B站AIGC科技官的"vLLM简介"视频截图 0. 引言1. vLLM简介2. vLLM启动日志解析3. vLLM压力测试4.vLLM分布式推理 0. 引言这篇文章主要记录了B站AIGC科技官的"vLLM简介"视频截图。 1. vLLM简介笔记 From Up主： KV Cache的大小与序列长度的…

来自B站AIGC科技官的"vLLM简介"视频截图

0. 引言
1. vLLM简介
2. vLLM启动日志解析
3. vLLM压力测试
4.vLLM分布式推理

0. 引言

这篇文章主要记录了B站AIGC科技官的"vLLM简介"视频截图。

1. vLLM简介

在这里插入图片描述

在这里插入图片描述

笔记 From Up主：

KV Cache的大小与序列长度的大小是成正比的

在这里插入图片描述

2. vLLM启动日志解析

在这里插入图片描述

3. vLLM压力测试

在这里插入图片描述

我本机测试的示例代码，

import requests
import time# 接口配置（根据实际部署调整）
API_URL = "http://192.168.31.15:8000/v1/completions"
MODEL_NAME = "gpt-4o"  # 与启动命令的 --served-model-name 一致
HEADERS = {"Content-Type": "application/json", "Authorization": "Bearer sk-123456"}def test_token_rate(prompt: str, max_tokens: int = 512):"""测试单次请求的 Token 速率"""payload = {"model": "gpt-4o","prompt": prompt,"stream": True,  # 启用流式响应以统计 Token 延迟"max_tokens": max_tokens,"temperature": 0.7}start_time = time.perf_counter()first_token_received = Falsetoken_count = 0# 发送流式请求response = requests.post(API_URL, json=payload, headers=HEADERS, stream=True)for chunk in response.iter_lines():if chunk:chunk_str = chunk.decode("utf-8").strip()if chunk_str.startswith("data: "):# 统计首 Token 到达时间if not first_token_received:first_token_time = time.perf_counter()first_token_received = True# 累计生成 Token 数量token_count += 1end_time = time.perf_counter()return {"total_time": end_time - start_time,"first_token_latency": first_token_time - start_time if first_token_received else 0,"tokens_per_sec": token_count / (end_time - start_time)}# 测试执行
prompt = "假设你是唐朝诗人李白，请用七言绝句描述一次雪夜独钓的场景"
result = test_token_rate(prompt)
print(f"首 Token 延迟: {result['first_token_latency']:.2f}s")
print(f"Token 速率: {result['tokens_per_sec']:.2f} tokens/s")

我本机测试的示例结果，

首 Token 延迟: 0.36s
Token 速率: 39.10 tokens/s

在这里插入图片描述

我本机测试的示例代码，

import requests
import time
from concurrent.futures import ThreadPoolExecutor, as_completed# 配置参数
API_URL = "http://192.168.31.15:8000/v1/completions"
MODEL_NAME = "gpt-4o"  # 与 vLLM 启动参数 --served-model-name 一致
CONCURRENCY = 10  # 并发请求数
MAX_TOKENS = 512  # 每个请求生成的最大 Token 数
TEST_PROMPT = "请用鲁迅的文学风格描写一次深夜咖啡馆的场景"
HEADERS = {"Content-Type": "application/json", "Authorization": "Bearer sk-123456"}def send_request(request_id: int):"""单个请求测试函数"""payload = {"model": "gpt-4o","prompt": TEST_PROMPT,"stream": True,"max_tokens": MAX_TOKENS,"temperature": 0.8}start_time = time.perf_counter()first_token_time = Nonetoken_count = 0try:response = requests.post(API_URL, json=payload, headers=HEADERS, stream=True)for chunk in response.iter_lines():if chunk:chunk_str = chunk.decode().strip()if chunk_str.startswith("data: "):if not first_token_time:first_token_time = time.perf_counter()token_count += 1except Exception as e:print(f"请求 {request_id} 失败: {str(e)}")return Noneend_time = time.perf_counter()return {"request_id": request_id,"total_time": end_time - start_time,"first_token_latency": first_token_time - start_time if first_token_time else 0,"tokens": token_count}def run_concurrent_test():"""执行并发测试"""results = []with ThreadPoolExecutor(max_workers=CONCURRENCY) as executor:futures = {executor.submit(send_request, i): i for i in range(CONCURRENCY)}for future in as_completed(futures):result = future.result()if result:results.append(result)# 统计结果total_tokens = sum(r["tokens"] for r in results)total_time = max(r["total_time"] for r in results)  # 取最长耗时作为总时间avg_first_latency = sum(r["first_token_latency"] for r in results) / len(results)print(f"\n测试报告: ")print(f"并发请求数: {CONCURRENCY}")print(f"总生成 Token 数: {total_tokens}")print(f"平均首 Token 延迟: {avg_first_latency:.2f}s")print(f"系统吞吐量: {total_tokens / total_time:.2f} tokens/s")if __name__ == "__main__":run_concurrent_test()

我本机测试的示例结果，

测试报告: 
并发请求数: 10
总生成 Token 数: 5130
平均首 Token 延迟: 0.39s
系统吞吐量: 355.00 tokens/s

在这里插入图片描述

4.vLLM分布式推理

在这里插入图片描述

在这里插入图片描述
未完待续！！！

原视频链接：B站AIGC科技官 vLLM简介

查看全文

http://www.dtcms.com/wzjs/610680.html

网站域名建设费进什么科目app界面设计网站

今标网站建设任务一分析电子商务网站栏目结构

企业型网站建设费用网站建设和维护的教程

能用网站做微信小程序服务器维护公告

阿里备案成功后怎么做网站东莞人社小程序

新手学做网站相关书籍南阳微网站建设

昆明专业网站制作公司王妃貌美还狠凶

北京网站建设优化广州网站开发服务

外包网站建设是什么意思公关策划公司是干什么的

给上市公司做网站有什么用wordpress设置网页缩略图

东台网站制作wordpress添加广告联盟

青岛做网站方案为什么高德地图没有外国位置信息

WordPress网站运行时间抖音代运营合作模式

网站开发体会静态网站怎么优化

做集团网站的宁夏做网站公司

六安市网站建设哈尔滨门户网站建设

商务网站建设中存在的问题中国哪家做网站的公司最大

让网站不要保存密码怎么做线上运营推广是做什么的

做水暖的网站猪八戒网可以做网站吗

建网站主流软件美食html网页代码模板

dede网站异步生成沂水做网站

jsp网站开发心得大连网站建设招聘网

网站建站流程图建站素材网站模板

城市门户网站模板少儿编程加盟费一般多少钱

广州公司网站附近网站电脑培训班

上海龙华医院的网站建设东莞seo 公司

网站制作公司哪家好做网站接专线费用

如何查网站域名备案wordpress 下载主题

自己在家做网站网站建设维护费摊销

成都市建设局网站搭建网站教学

来自B站AIGC科技官的"vLLM简介"视频截图

0. 引言

1. vLLM简介

2. vLLM启动日志解析

3. vLLM压力测试

4.vLLM分布式推理

相关文章：