当前位置: 首页 > news >正文

网站技术维护成都旅游线路

网站技术维护,成都旅游线路,印象笔记同步wordpress,响应式网站是一、使用 vllm 部署 Llama3-8b-Instruct 交互式建模(PAI-DSW)资源地址: https://github.com/vllm-project/vllmvLLM 是一个用于大型语言模型(LLM)推理和服务的快速且易于使用的库。 vLLM 的快速特性包括:…

一、使用 vllm 部署 Llama3-8b-Instruct

在这里插入图片描述

  1. 交互式建模(PAI-DSW)资源地址:
https://github.com/vllm-project/vllm

vLLM 是一个用于大型语言模型(LLM)推理和服务的快速且易于使用的库。

vLLM 的快速特性包括:

  • 先进的服务吞吐量
  • 使用 PagedAttention 高效管理注意力机制的键和值内存
  • 对传入请求进行持续批处理
  • 使用 CUDA/HIP 图快速执行模型
  • 量化技术:GPTQ、AWQ、SqueezeLLM、FP8 KV 缓存
  • 优化的 CUDA 内核

二、下载llama3模型文件

/mnt/workspace路径下执行

mkdir models

/mnt/workspace/models路径下执行

pip install modelscope
git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B-Instruct.git

使用 SHA-256 算法检查文件(可选)

shasum -a 256 model-00001-of-00004.safetensors
shasum -a 256 model-00002-of-00004.safetensors
shasum -a 256 model-00003-of-00004.safetensors
shasum -a 256 model-00004-of-00004.safetensors

2.1 安装vLLM

conda create -n vllm python=3.10
conda activate vllm
pip install vllm
pip install modelscope

2.2 模型推理

completion模式

  1. 服务部署
python -m vllm.entrypoints.openai.api_server --model /mnt/workspace/Meta-Llama-3-8B-Instruct --dtype auto --api-key 123456
  1. 服务测试 (vllm_completion_test.py
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1",api_key="123456",)
print("服务连接成功")
completion = client.completions.create(model="/mnt/workspace/Meta-Llama-3-8B-Instruct",prompt="北京是",max_tokens=128,
)
print("### 北京是: ")  
print("Completion result: ", completion)

另外一个terminal窗口执行

conda activate vllm
python vllm_completion_test.py

2.3 chat模式

  1. 服务部署
python -m vllm.entrypoints.openai.api_server --model /mnt/workspace/Meta-Llama-3-8B-Instruct --dtype auto --api-key 123456
  1. 服务测试(vllm_chat_test.py)
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1",    api_key="123456",
)
print("服务连接成功")
completion = client.chat.completions.create(model="/mnt/workspace/models/Meta-Llama-3-8B-Instruct",messages=[{"role": "system", "content": "你是一位智能助手."},{"role": "user", "content": "中国的首都是哪里?"}],max_tokens = 128,
)
print(completion.choices[0].message)

另外一个terminal窗口执行

python vllm_chat_test.py
http://www.dtcms.com/a/542559.html

相关文章:

  • LeetCode 409 - 最长回文串 | Swift 实战题解
  • 网站免费空间免备案泰安网站建设介绍
  • 重庆企业型网站建设西安做公司网站公司
  • Rust语言入门指南:从零掌握系统编程未来
  • 霸州网站制作WordPress评级主题
  • 制作网站设计的技术有网站建设回访
  • 宣城做w网站的公司做网页赚钱
  • 产品网站怎么做超链接ppt软件
  • 哪些网站是用wordpress返佣贵金属交易所网站建设
  • 驻马店专业网站建设我附近的广告公司
  • Redis Cluster 手动部署
  • 单页网站建设服务好的商家关键词优化排名的步骤
  • 做网站推广有什么升职空间十大永久免费网络游戏
  • 关于澳洲WHV工作一些岗位
  • 唐山快速建站公司wordpress数字链接出现404
  • wordpress网站会员太多产品单页设计模板
  • 电子电力技术的全桥LLC谐振变换器学习记录分享1
  • 公司网站邮箱费用wordpress 文章索引插件
  • 上海网站建设-中国互联h5响应式网站公司
  • 网站开发语言总结阿里巴巴与慧聪网网站建设对比
  • 东莞网站网络微信直接下载安装
  • 广州市手机网站建设品牌wordpress三栏cms主题
  • 网站搜索引擎优化的步骤做最好的整站模板下载网站
  • 网站过度优化的表现洪宇建设集团公司网站
  • Foundation Model 在 Swift 中的类型安全生成实践
  • 嘉兴路街道网站建设网络营销方案格式
  • 东莞网站建设网页推广优秀网站开发
  • 网站建设网站建设公司长春网络公司排名榜
  • 5.关联式容器-maphashtable(完)
  • 网站 头尾调用单位加强网站建设