当前位置: 首页 > wzjs >正文

视觉网络网站爱论坛

视觉网络网站,爱论坛,专门做音效的网站,wordpress编辑器 填满vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。 更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/ *在线运行 vLLM 入门教程:零基础分步指南 源码 examples/offline_inf…

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

*在线运行 vLLM 入门教程:零基础分步指南

源码 examples/offline_inference/eagle.py

# SPDX-License-Identifier: Apache-2.0
import argparse
import json
import osfrom transformers import AutoTokenizerfrom vllm import LLM, SamplingParamsparser = argparse.ArgumentParser()parser.add_argument("--dataset",type=str,default="./examples/data/gsm8k.jsonl",help="downloaded from the eagle repo " \"https://github.com/SafeAILab/EAGLE/blob/main/eagle/data/"
)
parser.add_argument("--max_num_seqs", type=int, default=8)
parser.add_argument("--num_prompts", type=int, default=80)
parser.add_argument("--num_spec_tokens", type=int, default=2)
parser.add_argument("--tp", type=int, default=1)
parser.add_argument("--draft_tp", type=int, default=1)
parser.add_argument("--enforce_eager", action='store_true')
parser.add_argument("--enable_chunked_prefill", action='store_true')
parser.add_argument("--max_num_batched_tokens", type=int, default=2048)
parser.add_argument("--temp", type=float, default=0)args = parser.parse_args()print(args)model_dir = "meta-llama/Meta-Llama-3-8B-Instruct"
eagle_dir = "abhigoyal/EAGLE-LLaMA3-Instruct-8B-vllm"max_model_len = 2048tokenizer = AutoTokenizer.from_pretrained(model_dir)if os.path.exists(args.dataset):prompts = []num_prompts = args.num_promptswith open(args.dataset) as f:for line in f:data = json.loads(line)prompts.append(data["turns"][0])
else:prompts = ["The future of AI is", "The president of the United States is"]prompts = prompts[:args.num_prompts]
num_prompts = len(prompts)prompt_ids = [tokenizer.apply_chat_template([{"role": "user","content": prompt}],add_generation_prompt=True)for prompt in prompts
]llm = LLM(model=model_dir,trust_remote_code=True,tensor_parallel_size=args.tp,enable_chunked_prefill=args.enable_chunked_prefill,max_num_batched_tokens=args.max_num_batched_tokens,enforce_eager=args.enforce_eager,max_model_len=max_model_len,max_num_seqs=args.max_num_seqs,gpu_memory_utilization=0.8,speculative_model=eagle_dir,num_speculative_tokens=args.num_spec_tokens,speculative_draft_tensor_parallel_size=args.draft_tp,speculative_max_model_len=max_model_len,disable_log_stats=False,
)sampling_params = SamplingParams(temperature=args.temp, max_tokens=256)outputs = llm.generate(prompt_token_ids=prompt_ids,sampling_params=sampling_params)# calculate the average number of accepted tokens per forward pass, +1 is
# to account for the token from the target model that's always going to be
# accepted
# 计算每个正向通行证的平均接收 token 的平均数量,+1为
# 要考虑到目标模型将接受的 token
acceptance_counts = [0] * (args.num_spec_tokens + 1)
for output in outputs:for step, count in enumerate(output.metrics.spec_token_acceptance_counts):acceptance_counts[step] += countprint(f"mean acceptance length: \{sum(acceptance_counts) / acceptance_counts[0]:.2f}")
http://www.dtcms.com/wzjs/390360.html

相关文章:

  • 建立个人网站服务器免费推广引流平台
  • wordpress 平衡插件seo在线优化工具
  • 企业静态网站需要备案吗谷歌浏览器手机版下载
  • 武汉 酒店 网站制作如何快速搭建网站
  • 建设专业网站公司网站优化名词解释
  • wordpress mysql配置文件seo zac
  • 自建网站系统希爱力吃一颗能干多久
  • 嘉兴 网站建设长沙seo外包
  • 一般网站要多大空间深圳全网推广排名
  • 腾讯云网站备案靠谱吗百度网盘资源共享
  • 用手机什么软件做网站百度大搜
  • 京网站建设首选白龙马广告开户南京seo
  • vs做网站的书籍百度快速排名提升
  • 维护一个网站需要多少钱360推广登陆入口
  • 如何选择顺德网站建设网络广告策划与制作
  • 常州哪家做网站好湖南正规seo优化
  • wordpress转盘抖音seo关键词排名技术
  • 网站建设中html网站建设与网页设计制作
  • wordpress 替换 插件seo关键词推广怎么做
  • 网站虚拟服务器成都网站快速排名优化
  • 网站建设技术简易留言板朝阳区seo搜索引擎优化介绍
  • 芜湖新芜湖网站建设网站推广软件免费版下载
  • 网站开发新闻湖南seo服务
  • 网站做快照怎么做免费入驻的跨境电商平台
  • ps个人网站设计总结重庆seo网站建设
  • 福州网站建设外包模板网站建设
  • 大气的网络公司名字百度seo优化培训
  • 做外贸的社交网站yoast seo教程
  • 太原网站搜索优化商丘seo
  • 电子政务建设与政府网站建设百度关键词收费标准