当前位置: 首页 > news >正文

【vLLM 学习】Neuron

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →vllm.hyper.ai/

*在线运行 vLLM 入门教程:零基础分步指南

源码 examples/offline_inference/neuron.py

# SPDX-License-Identifier: Apache-2.0from vllm import LLM, SamplingParams# 样本提示。
prompts = ["Hello, my name is","The president of the United States is","The capital of France is","The future of AI is",
]
# 创建一个采样参数对象。
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)# 创建一个 LLM。
llm = LLM(model="TinyLlama/TinyLlama-1.1B-Chat-v1.0",max_num_seqs=8,# max_model_len 和 block_size 参数必须与# 定位神经元设备时的最大序列长度。# 目前,这是连续批处理支持的已知限制# 在 transformers-Neuronx 中。# TODO(liangfu): 在 transformers-Neuronx 中支持分页。max_model_len=1024,block_size=1024,# 安装 AWS 神经元 SDK 时可以自动检测到该设备。# 设备参数可以被未指定用于自动检测,# 或明确分配。device="neuron",tensor_parallel_size=2)
# 从提示中生成文本。输出是 RequestOutput 对象的包含提示,生成的文本和其他信息的对象列表。
outputs = llm.generate(prompts, sampling_params)
# 打印输出。
for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
http://www.dtcms.com/a/464727.html

相关文章:

  • 网站做行业认证好处施工企业在施工过程中发现工程设计图纸存在差错的
  • 迅为RK3576开发板挂载Windows以及虚拟机Ubuntu测试
  • 第1篇:创建基础电商AI客服
  • 【MyBatis从入门到入土】告别JDBC原始时代:零基础MyBatis极速上手指南
  • MaxScript 科研绘图教程:从数据到精确的可视化
  • org.apache.http.conn.HttpHostConnectException: Connect to localhost:8086
  • 深度学习入门(一)——从神经元到损失函数,一步步理解前向传播(上)
  • 沧州网站制作公司宁波网站的优化
  • 工程承包去哪个网站做网站的步骤 优帮云
  • 网站建设课程wordpress 去掉左上角
  • 怎么创建一个博客网站wordpress电影下载
  • 搭建网站案例精粹北京cos网站
  • 云南澄江县建设局网站做网站江门
  • 企业外贸网站建设互联网创业项目概述
  • 关于企业网站建设数据现状分析重庆百度推广关键词优化
  • 手机网站免费网站安全建设费用预算表
  • 网站seo推广计划网页制作工具可以分为
  • 北京企业建设网站制作建设网站总经理讲话范本
  • 沂南网站设计不用wordpress
  • 长春网站建设吉网传媒实力牜网页视频下载安卓
  • 用书籍上的文章做网站更新南海建设工程交易中心网站
  • 高品质网站设计制作竞价排名是按照什么来计费的
  • 上海建设房屋网站北京网页设计公司兴田德润优秀
  • 宜都网站seoico众筹WordPress
  • wordpress thread comment泰安seo外包公司
  • 什么网站做品牌特卖北京高级网站开发
  • 品牌型网站开发网站开发商怎么关闭图片显示
  • captcha wordpress提升seo搜索排名
  • 爱站数据网络销售有限公司
  • 网站站点风格西安seo排名收费