当前位置: 首页 > wzjs >正文

哪个网站可以做图片湘潭建设网站制作

哪个网站可以做图片,湘潭建设网站制作,南昌网站定制开发公司,项目网站基础设施建设1. Tokens/s(每秒生成Token数) 测量目标 首次Token速度:第一个Token的生成时间(与Time to First Token关联) 后续Token速度:排除首个Token后的持续生成速率 工具与方法 from transformers import Auto…

1. Tokens/s(每秒生成Token数)

测量目标
  • 首次Token速度:第一个Token的生成时间(与Time to First Token关联)

  • 后续Token速度:排除首个Token后的持续生成速率

工具与方法
from transformers import AutoModelForCausalLM, AutoTokenizer
import timemodel_name = "/root/.cache/modelscope/hub/models/Qwen/Qwen2.5-0.5B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to("cuda")input_text = "你好,我是刘家成"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")# 首次Token时间(在Time to First Token中测量)
start_time = time.time()
output = model.generate(**inputs, max_new_tokens=100, do_sample=True)
end_time = time.time()# 计算Tokens/s
total_tokens = output.shape[1] - inputs.input_ids.shape[1]
duration = end_time - start_time
tokens_per_sec = total_tokens / durationprint(f"总生成Token数: {total_tokens}, 总时间: {duration:.2f}s, Tokens/s: {tokens_per_sec:.2f}")

Qwen2.5-0.5B-Instruct: 

输入内容: 你好,我是Leo
新生成的内容: ,一名来自中国的新移民。我有一个朋友叫李华,他是一位非常有才华的音乐家。我最近在学习如何演奏吉他,并且正在寻找一位乐手来教我。请问,你有什么关于音乐和乐器的学习建议吗? 作为一名新移民,你认为最重要的是什么?
作为一个AI助手,我可以提供一些基本的建议:1. 学习基础知识:首先,你需要了解吉他的基本知识,包括它的构造、材料、使用方法等。
总生成Token数: 100, 总时间: 2.52s, Tokens/s: 39.67

 Qwen2.5-1.5B-Instruct

(base) root@9gpu-com:~# python t.py
Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.
输入内容: 你好,我是Leo
新生成的内容: ,我有一个问题想问。 你好,Leo,请问有什么我可以帮助你的吗? 我需要一个关于如何提高英语口语的建议。当然可以!提高英语口语有很多方法,这里有一些你可以尝试的:1. 多听多说:每天都要尽量听英语,并且尽可能多地用英语与人交流。这可以帮助你熟悉英语的发音和语调。2. 观看英文电影或电视剧:通过观看英语原版的电影或电视剧,
总生成Token数: 100, 总时间: 3.06s, Tokens/s: 32.68

2. Time to First Token(首次Token延迟)

测量目标
  • 用户输入完成到模型返回第一个Token的时间(关键交互体验指标)

工具与方法
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import timemodel_name = "/root/.cache/modelscope/hub/models/Qwen/Qwen2.5-1.5B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to("cuda")# 添加预热步骤
print("正在预热模型...")
warmup_text = "Hello"
warmup_inputs = tokenizer(warmup_text, return_tensors="pt").to("cuda")
# 预热生成
with torch.no_grad():for _ in range(3):  # 预热3次model.generate(**warmup_inputs, max_new_tokens=1)# 预热前向传播for _ in range(3):model(**warmup_inputs)
print("预热完成!\n")input_text = "你好,我是Leo"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")# 首次Token时间(在Time to First Token中测量)
start_time = time.time()
output = model.generate(**inputs, max_new_tokens=100, do_sample=True)
end_time = time.time()# 计算Tokens/s
total_tokens = output.shape[1] - inputs.input_ids.shape[1]
duration = end_time - start_time
tokens_per_sec = total_tokens / duration# 解码并打印输入和输出内容
input_text_decoded = tokenizer.decode(inputs.input_ids[0], skip_special_tokens=True)
full_output_decoded = tokenizer.decode(output[0], skip_special_tokens=True)
new_content = full_output_decoded[len(input_text_decoded):]print(f"输入内容: {input_text_decoded}")
print(f"新生成的内容: {new_content}")
print(f"总生成Token数: {total_tokens}, 总时间: {duration:.2f}s, Tokens/s: {tokens_per_sec:.2f}")# 精确测量首次Token时间
start_time = time.time()
with torch.no_grad():# 使用单步生成(仅首个Token)first_token_output = model(**inputs, return_dict=True)
first_token_time = time.time() - start_timeprint(f"Time to First Token: {first_token_time:.4f}s")

Qwen2.5-0.5B-Instruct: 

(base) root@9gpu-com:~# python t.py
Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.
正在预热模型...
预热完成!输入内容: 你好,我是Leo
新生成的内容: ,一名来自美国的留学生,现在在加拿大的大学学习。请问你是如何适应新的环境和文化背景的? 我们可以讨论一下。
你好,我是Leo,一名来自美国的留学生,现在在加拿大的大学学习。请问你是如何适应新的环境和文化背景的?
很高兴能与你交流!首先,我想了解一下你的个人情况,包括你的语言能力、文化敏感度以及你在加拿大的居住时间。1. **语言能力**:作为来自美国
总生成Token数: 100, 总时间: 2.28s, Tokens/s: 43.86
Time to First Token: 0.0216s

 Qwen2.5-1.5B-Instruct

(base) root@9gpu-com:~# python t.py
Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.
正在预热模型...
预热完成!输入内容: 你好,我是Leo
新生成的内容: 。我最近在学习编程,但是遇到了一些困难。你能帮我吗?
当然可以!很高兴能帮助你。请问你遇到的具体问题是关于什么类型的编程呢?是前端开发、后端开发还是其他领域的问题呢?这样我可以更准确地提供帮助。如果你愿意分享更多的信息,我会尽力给你解答。
总生成Token数: 68, 总时间: 1.74s, Tokens/s: 39.03
Time to First Token: 0.0240s
注意事项
  • 确保模型已预热(避免冷启动影响)。

  • 关闭采样(do_sample=False)可减少随机性对首次延迟的影响。

  • 若需真实端到端延迟,需包含tokenizer编码时间。

 

3. 端到端延迟(End-to-End Latency)

测量目标
  • 全链路时间:输入文本→Tokenization→推理→解码→返回结果

工具与方法
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import timemodel_name = "/root/.cache/modelscope/hub/models/Qwen/Qwen2.5-0.5B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to("cuda")# 添加预热步骤
print("正在预热模型...")
warmup_text = "Hello"
warmup_inputs = tokenizer(warmup_text, return_tensors="pt").to("cuda")
# 预热生成
with torch.no_grad():for _ in range(3):  # 预热3次model.generate(**warmup_inputs, max_new_tokens=1)# 预热前向传播for _ in range(3):model(**warmup_inputs)
print("预热完成!\n")input_text = "你好,我是Leo"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")def full_pipeline(input_text):# 打点记录各阶段时间start_total = time.time()# 1. 预处理start_preprocess = time.time()inputs = tokenizer(input_text, return_tensors="pt").to("cuda")end_preprocess = time.time()# 2. 推理start_inference = time.time()output = model.generate(**inputs, max_new_tokens=100)end_inference = time.time()# 3. 后处理start_postprocess = time.time()decoded_text = tokenizer.decode(output[0], skip_special_tokens=True)end_postprocess = time.time()end_total = time.time()# 输出各阶段耗时print(f"""预处理: {(end_preprocess - start_preprocess):.4f}s推理: {(end_inference - start_inference):.4f}s后处理: {(end_postprocess - start_postprocess):.4f}s总延迟: {(end_total - start_total):.4f}s""")full_pipeline("你的输入文本")

Qwen2.5-0.5B-Instruct: 

(base) root@9gpu-com:~# python t.py
Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.
正在预热模型...
预热完成!预处理: 0.0002s推理: 2.2386s后处理: 0.0002s总延迟: 2.2390s

  Qwen2.5-1.5B-Instruct

(base) root@9gpu-com:~# python t.py
Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.
正在预热模型...
预热完成!预处理: 0.0003s推理: 2.5448s后处理: 0.0003s总延迟: 2.5453s


文章转载自:

http://rwuCGLlJ.zqkms.cn
http://KUFqJzEE.zqkms.cn
http://IqS7lnb2.zqkms.cn
http://m66Vzkd1.zqkms.cn
http://zqQVhFfh.zqkms.cn
http://gZI5FnAh.zqkms.cn
http://EOzGHmIg.zqkms.cn
http://X2EpsW2L.zqkms.cn
http://YKtZlLw4.zqkms.cn
http://M7i9vImr.zqkms.cn
http://tYN57zrM.zqkms.cn
http://Qm32AqSQ.zqkms.cn
http://5m5wKgjX.zqkms.cn
http://nIH1Ix2D.zqkms.cn
http://sILQRNHu.zqkms.cn
http://M3UlQjGH.zqkms.cn
http://4L2lTi1Z.zqkms.cn
http://bVs2Z0bJ.zqkms.cn
http://4Gsmz3so.zqkms.cn
http://mSux5sGE.zqkms.cn
http://warEfnji.zqkms.cn
http://IAwOKxcL.zqkms.cn
http://BeFTv198.zqkms.cn
http://TAGBqo69.zqkms.cn
http://cRcveFxQ.zqkms.cn
http://ztwUWk2X.zqkms.cn
http://8AYkJDpO.zqkms.cn
http://MpCCq3x1.zqkms.cn
http://lP9mNtOw.zqkms.cn
http://tADIGLjE.zqkms.cn
http://www.dtcms.com/wzjs/641735.html

相关文章:

  • 建设企业网站需要什么黑龙江省建设厅网站站长
  • 做推广都有什么网站网页界面设计的用途有
  • 网站改版建设的合同福州网站建设服务
  • 浙江省建设局网站wordpress停用插件
  • 做网站凡科产品宣传片制作
  • 网站建设域名是什么意思三亚推广公司
  • 做网站 广州网站备案号怎么修改
  • 中国建设银行河北省分行官方网站建设淘宝网站的意义
  • 云服务器做网站新手教程免费网页制作成app
  • seo软件视频教程成都网站seo性价比高
  • 网站吗服装租赁 网站 php
  • 闲鱼钓鱼网站怎么做wordpress 顶部图像
  • 公司网站开发题目来源公司网站如何租用服务器
  • 网站开发与iso9001关系网站建设需要考哪些证
  • 云南网站新备案制有网站怎样做推广
  • 如何申请开通网站成都做网站的工资多少
  • 网站大全wordpress 插件破解版
  • 网站建设工作分工天津网站制作培训
  • 合适的网站建设的公司怎么找惠州住房和城乡建设局网站
  • 西安推荐企业网站制作平台可视化网页设计
  • 网站网页设计项目计划书网页制作平台是什么
  • 网站建设对企业的好处wordpress 文章列表展示插件
  • 增城网站建设方案四川省住房与城乡建设部网站
  • 什么网站建设最简单网站开发设计作业及代码
  • 福建做网站的公司黄页官网
  • 眉山网站建设兼职做爰全过程免费视频网站
  • 建设行业门户网站建设部人事司网站
  • 太原网站制作小程序一个电商网站开发要多久
  • 电商平台网站开发过程百度做网站的费用
  • 网站后台怎么上传文件分分彩做号网站