当前位置: 首页 > wzjs >正文

asp网站开发源码wordpress连接设置方法

asp网站开发源码,wordpress连接设置方法,怎么自己制作网站链接,超链接到网站怎么做来自B站AIGC科技官的"vLLM简介"视频截图 0. 引言1. vLLM简介2. vLLM启动日志解析3. vLLM压力测试4.vLLM分布式推理 0. 引言 这篇文章主要记录了B站AIGC科技官的"vLLM简介"视频截图。 1. vLLM简介 笔记 From Up主: KV Cache的大小与序列长度的…

来自B站AIGC科技官的"vLLM简介"视频截图

  • 0. 引言
  • 1. vLLM简介
  • 2. vLLM启动日志解析
  • 3. vLLM压力测试
  • 4.vLLM分布式推理

0. 引言

这篇文章主要记录了B站AIGC科技官的"vLLM简介"视频截图。

1. vLLM简介

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
笔记 From Up主:

  • KV Cache的大小与序列长度的大小是成正比的

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. vLLM启动日志解析

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3. vLLM压力测试

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
我本机测试的示例代码,

import requests
import time# 接口配置(根据实际部署调整)
API_URL = "http://192.168.31.15:8000/v1/completions"
MODEL_NAME = "gpt-4o"  # 与启动命令的 --served-model-name 一致
HEADERS = {"Content-Type": "application/json", "Authorization": "Bearer sk-123456"}def test_token_rate(prompt: str, max_tokens: int = 512):"""测试单次请求的 Token 速率"""payload = {"model": "gpt-4o","prompt": prompt,"stream": True,  # 启用流式响应以统计 Token 延迟"max_tokens": max_tokens,"temperature": 0.7}start_time = time.perf_counter()first_token_received = Falsetoken_count = 0# 发送流式请求response = requests.post(API_URL, json=payload, headers=HEADERS, stream=True)for chunk in response.iter_lines():if chunk:chunk_str = chunk.decode("utf-8").strip()if chunk_str.startswith("data: "):# 统计首 Token 到达时间if not first_token_received:first_token_time = time.perf_counter()first_token_received = True# 累计生成 Token 数量token_count += 1end_time = time.perf_counter()return {"total_time": end_time - start_time,"first_token_latency": first_token_time - start_time if first_token_received else 0,"tokens_per_sec": token_count / (end_time - start_time)}# 测试执行
prompt = "假设你是唐朝诗人李白,请用七言绝句描述一次雪夜独钓的场景"
result = test_token_rate(prompt)
print(f"首 Token 延迟: {result['first_token_latency']:.2f}s")
print(f"Token 速率: {result['tokens_per_sec']:.2f} tokens/s")

我本机测试的示例结果,

首 Token 延迟: 0.36s
Token 速率: 39.10 tokens/s

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

我本机测试的示例代码,

import requests
import time
from concurrent.futures import ThreadPoolExecutor, as_completed# 配置参数
API_URL = "http://192.168.31.15:8000/v1/completions"
MODEL_NAME = "gpt-4o"  # 与 vLLM 启动参数 --served-model-name 一致
CONCURRENCY = 10  # 并发请求数
MAX_TOKENS = 512  # 每个请求生成的最大 Token 数
TEST_PROMPT = "请用鲁迅的文学风格描写一次深夜咖啡馆的场景"
HEADERS = {"Content-Type": "application/json", "Authorization": "Bearer sk-123456"}def send_request(request_id: int):"""单个请求测试函数"""payload = {"model": "gpt-4o","prompt": TEST_PROMPT,"stream": True,"max_tokens": MAX_TOKENS,"temperature": 0.8}start_time = time.perf_counter()first_token_time = Nonetoken_count = 0try:response = requests.post(API_URL, json=payload, headers=HEADERS, stream=True)for chunk in response.iter_lines():if chunk:chunk_str = chunk.decode().strip()if chunk_str.startswith("data: "):if not first_token_time:first_token_time = time.perf_counter()token_count += 1except Exception as e:print(f"请求 {request_id} 失败: {str(e)}")return Noneend_time = time.perf_counter()return {"request_id": request_id,"total_time": end_time - start_time,"first_token_latency": first_token_time - start_time if first_token_time else 0,"tokens": token_count}def run_concurrent_test():"""执行并发测试"""results = []with ThreadPoolExecutor(max_workers=CONCURRENCY) as executor:futures = {executor.submit(send_request, i): i for i in range(CONCURRENCY)}for future in as_completed(futures):result = future.result()if result:results.append(result)# 统计结果total_tokens = sum(r["tokens"] for r in results)total_time = max(r["total_time"] for r in results)  # 取最长耗时作为总时间avg_first_latency = sum(r["first_token_latency"] for r in results) / len(results)print(f"\n测试报告: ")print(f"并发请求数: {CONCURRENCY}")print(f"总生成 Token 数: {total_tokens}")print(f"平均首 Token 延迟: {avg_first_latency:.2f}s")print(f"系统吞吐量: {total_tokens / total_time:.2f} tokens/s")if __name__ == "__main__":run_concurrent_test()

我本机测试的示例结果,

测试报告: 
并发请求数: 10
总生成 Token 数: 5130
平均首 Token 延迟: 0.39s
系统吞吐量: 355.00 tokens/s

在这里插入图片描述
在这里插入图片描述

4.vLLM分布式推理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
未完待续!!!


原视频链接:B站AIGC科技官 vLLM简介


文章转载自:

http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://00000000.wtwhj.cn
http://www.dtcms.com/wzjs/610680.html

相关文章:

  • 网站域名建设费进什么科目app界面设计网站
  • 今标 网站建设任务一 分析电子商务网站栏目结构
  • 企业型网站建设费用网站建设和维护的教程
  • 能用网站做微信小程序服务器维护公告
  • 阿里备案成功后怎么做网站东莞人社小程序
  • 新手学做网站相关书籍南阳微网站建设
  • 昆明专业网站制作公司王妃貌美还狠凶
  • 北京网站建设优化广州网站开发服务
  • 外包网站建设是什么意思公关策划公司是干什么的
  • 给上市公司做网站有什么用wordpress设置网页缩略图
  • 东台网站制作wordpress添加广告联盟
  • 青岛做网站方案为什么高德地图没有外国位置信息
  • WordPress网站运行时间抖音代运营合作模式
  • 网站开发体会静态网站怎么优化
  • 做集团网站的宁夏做网站公司
  • 六安市网站建设哈尔滨门户网站建设
  • 商务网站建设中存在的问题中国哪家做网站的公司最大
  • 让网站不要保存密码怎么做线上运营推广是做什么的
  • 做水暖的网站猪八戒网可以做网站吗
  • 建网站 主流软件美食html网页代码模板
  • dede网站 异步生成沂水做网站
  • jsp网站开发 心得大连网站建设招聘网
  • 网站建站流程图建站素材网站模板
  • 城市门户网站模板少儿编程加盟费一般多少钱
  • 广州公司网站附近网站电脑培训班
  • 上海龙华医院的网站建设东莞seo 公司
  • 网站制作公司哪家好做网站接专线费用
  • 如何查网站域名备案wordpress 下载 主题
  • 自己在家做网站网站建设维护费摊销
  • 成都市建设局网站搭建网站教学