当前位置: 首页 > wzjs >正文

如何建立官方网站网站建设流程 费用

如何建立官方网站,网站建设流程 费用,苏州现在能去吗,电商网站开发常用代码| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者Slack | 官网:GitCode - 全球开发者的开源社区,开源代码托管平台 目录 ■ vLLM是之所以快速的原因 ■ 性能基准测试 ■ vLLM灵活且易于使用 ■ vLLM无缝支持HuggingFace上大多数流行的开源模型 ■ 快速开…

 

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者Slack |

官网GitCode - 全球开发者的开源社区,开源代码托管平台

目录

■ vLLM是之所以快速的原因

■ 性能基准测试

■ vLLM灵活且易于使用

■ vLLM无缝支持HuggingFace上大多数流行的开源模型

■ 快速开始

◎安装

◎使用

OpenAI-Compatible Server

OpenAI Completions API with vLLM

OpenAI Chat Completions API with vLLM

On Attention Backends



vLLM用于LLM推理和服务的快速且易于使用的库。

vLLM最初是在加州大学伯克利分校的Sky Computing Lab开发的,现在已经发展成为一个由学术界和工业界共同贡献的社区驱动的项目。

 vLLM是之所以快速的原因

最先进的吞吐量

通过PagedAttention高效管理注意力键和值内存。

对连续的请求进行批处理

使用CUDA/HIP图进行快速模型执行。

量化:GPTQ,AWQ、INT4、INT8和FP8。

优化CUDA内核,包括集成FlashAttention和FlashInfer。

投机解码

分块预先填充

 性能基准测试

在博客文章的末尾包含了一个性能基准。它比较了vLLM与其他LLM服务引擎(TensorRT-LLM、SGLang和LMDeploy)的性能。该实现位于nightly-benchmarks文件夹下,可以使用一键可运行脚本重现该基准测试。

 vLLM灵活且易于使用

与流行的Hugging Face模型无缝集成。

支持多种解码算法的高吞吐量服务,包括并行抽样、束搜索等。

支持分布式推理的张量并行性和管道并行性。

支持流式输出。

支持OpenAI兼容的API服务器。

支持NVIDIA GPU,AMD CPU和GPU,Intel CPU和GPU,PowerPC CPU,TPU和AWS Neuron。

支持前缀缓存。

支持多lora。

 vLLM无缝支持HuggingFace上大多数流行的开源模型

类Transformer的大语言模型(例如,Llama)。

混合专家大语言模型(例如,Mixtral,Deepseek-V2和V3)。

嵌入模型(例如E5-Mistral)。

多模态大语言模型(例如,LLaVA)。

支持模型的完整列表请查看这里。

 快速开始

先决条件:OS: Linux、Python: 3.9–3.12

安装

使用pip安装vLLM或从源代码安装:

pip install vllm

也可以创建conda环境管理python环境:

conda create -n myenv python=3.12 -yconda activate myenvpip install vllm

验证安装

import vllmprint(vllm.__version__)

使用

示例代码如下:

from vllm import LLM, SamplingParams# Sample prompts.prompts = ["Hello, my name is","The president of the United States is","The capital of France is","The future of AI is",]# Create a sampling params object.sampling_params = SamplingParams(temperature=0.8, top_p=0.95)# Create an LLM.llm = LLM(model="facebook/opt-125m")# Generate texts from the prompts. The output is a list of RequestOutput objects# that contain the prompt, generated text, and other information.outputs = llm.generate(prompts, sampling_params)# Print the outputs.print("\nGenerated Outputs:\n" + "-" * 60)for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt:    {prompt!r}")print(f"Output:    {generated_text!r}")print("-" * 60)

OpenAI-Compatible Server

启动vLLM服务器(使用Qwen2.5-1.5B-Instruct模型):

vllm serve Qwen/Qwen2.5-1.5B-Instruct

默认情况下,服务器应用generation_config。如果存在的话,从huggingface模型存储库中获取。这意味着某些采样参数的默认值可以被模型创建者推荐的值覆盖。

要禁用此行为,请在启动服务器时传递--generation-config vllm

该服务器的查询格式与OpenAI API相同。例如,要列出模型:

curl http://localhost:8000/v1/models

可以传入参数--api-key或环境变量VLLM_API_KEY,以使服务器能够检查头中的API key。

OpenAI Completions API with vLLM

一旦服务器启动了,可以用输入提示查询模型:

curl http://localhost:8000/v1/completions \-H "Content-Type: application/json" \-d '{"model": "Qwen/Qwen2.5-1.5B-Instruct","prompt": "San Francisco is a","max_tokens": 7,"temperature": 0}'

由于此服务器与OpenAI API兼容,因此可以将其用作使用OpenAI API的任何应用程序的直接替代品。例如,另一种查询服务器的方法是通过openai Python包:

from openai import OpenAI# Modify OpenAI's API key and API base to use vLLM's API server.openai_api_key = "EMPTY"openai_api_base = "http://localhost:8000/v1"client = OpenAI(api_key=openai_api_key,base_url=openai_api_base,)completion = client.completions.create(model="Qwen/Qwen2.5-1.5B-Instruct", prompt="San Francisco is a")print("Completion result:", completion)

可以在这里找到更详细的客户示例https://github.com/vllm-project/vllm/blob/main/examples/online_serving/openai_completion_client.py

OpenAI Chat Completions API with vLLM

vLLM还支持OpenAI聊天Completions API。聊天界面是一种与模型通信的更动态、更交互式的方式,允许存储在聊天历史记录中的来回交换。这对于需要上下文或更详细解释的任务很有用。

可以使用create chat completion 完成端点与模型交互:

curl http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "Qwen/Qwen2.5-1.5B-Instruct","messages": [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Who won the world series in 2020?"}]}'

这段curl命令是用来向本地运行的服务发送HTTP POST请求,目的是获取一个AI模型的文本回复。以下是命令的详细解析:

curl:命令行工具,用于从服务器获取或发送数据。

http://localhost:8000/v1/chat/completions:这是请求的目标URL。localhost意味着请求发送给运行在同一台计算机上的服务,8000是服务监听的端口号,/v1/chat/completions是API的路径,用于触发聊天完成请求,即让AI模型生成文本回复。

-H "Content-Type: application/json":这是请求头的一部分,指定请求体的内容类型为JSON。Content-Type是一个HTTP头部字段,用来告诉接收方消息主体的媒体类型。

-d:是curl命令中用来发送数据的标准选项。后面的单引号括起来的内容是POST请求的主体,也就是要发送的JSON数据。

综上所述,这条curl命令的作用是向运行在本地的AI服务发送一个请求,要求使用Qwen2.5-1.5B-Instruct模型来回答一个关于2020年世界大赛冠军的问题,模型将以文本形式返回答案。

可以使用openai python包:

from openai import OpenAI# Set OpenAI's API key and API base to use vLLM's API server.openai_api_key = "EMPTY"openai_api_base = "http://localhost:8000/v1"client = OpenAI(api_key=openai_api_key,base_url=openai_api_base,)chat_response = client.chat.completions.create(model="Qwen/Qwen2.5-1.5B-Instruct",messages=[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Tell me a joke."},])print("Chat response:", chat_response)

On Attention Backends

目前,vLLM支持跨不同平台和加速器架构的高效注意力计算的多个后端。它会自动选择与系统和模型规范兼容的性能最好的后端。

如果需要,还可以通过将环境变量VLLM_ATTENTION_BACKEND配置为以下选项之一来手动设置选择的后端:FLASH_ATTN, FLASHINFER或XFORMERS。

没有预先构建的包含Flash Infer的vllm轮子,因此必须首先在环境中安装它。请参阅 Flash Infer official docs 官方文档或查看docker/Dockerfile以获取如何安装它的说明。

至此,本文的内容就结束啦。

http://www.dtcms.com/wzjs/795070.html

相关文章:

  • 屏蔽网页 的网站备案域名购买成功后如何使用
  • 台州网站制作定制招聘网站页面设计图片
  • dw模板制作网站的缺点免费海外网站建设
  • 免费空间+网站空间+虚拟主机电商是什么职业
  • 怎么仿网站wordpress 截取文章内容
  • 五莲县网站建设wordpress博客列表显示
  • 世界杯竞猜网站开发电子商务网店运营
  • php公司网站系统网站备案找回密码
  • 自助建站最好的平台泉州建站模板搭建
  • 做poster网站河北省城乡住房建设厅网站
  • 响应式网站编码怎吗设置wordpress魔板
  • 新竹自助建站系统视频素材网站推荐
  • 网络销售网站推广全球可以做外贸的社交网站有哪些
  • 自己做网站空间做个人网站的步骤
  • 深圳市建设局官方网站网站怎么提升关键词排名
  • php 网站 服务器wordpress.模板
  • 五莲县网站建设三门峡建设网站
  • 安庆哪些做网站的公司好网站会员方案
  • 岳溥庥网站建设用自家宽带做网站服务器
  • 怀化网站建设企业门店设计方案
  • 总部基地网站建设公司两个网站做的h5如何合在一起
  • win7 iis添加网站网站的主流趋势
  • 网站上传文件不大于5M定么做建设网站英语
  • 保定网站建设公司怎么用软件做原创视频网站
  • 烟台做外贸网站建设软文营销文章300字
  • 邢台网站招聘员工123网站开通flash
  • 辽宁响应式网站建设wordpress主题 四亩田
  • 大悟网站制作河北网站seo
  • 上海住远建设工程监理公司网站余姚关键词优化公司
  • 织梦网站被植入广告wordpress 批量产品尺码