当前位置: 首页 > news >正文

手机官方网站广告软文

手机官方网站,广告软文,深圳尼高网站建设,平台网站建设所需资质什么是 GPUStack?​ GPUStack 是一个用于运行 AI 模型的开源 GPU 集群管理器。 核心特性​ 广泛的硬件兼容性:支持管理 Apple Mac、Windows PC 和 Linux 服务器上不同品牌的 GPU。广泛的模型支持:从大语言模型 LLM、多模态模型 VLM 到 Diffusion 扩散…

什么是 GPUStack?​

GPUStack 是一个用于运行 AI 模型的开源 GPU 集群管理器。

核心特性​

  • 广泛的硬件兼容性:支持管理 Apple Mac、Windows PC 和 Linux 服务器上不同品牌的 GPU。
  • 广泛的模型支持:从大语言模型 LLM、多模态模型 VLM 到 Diffusion 扩散模型、STT 与 TTS 语音模型、文本嵌入和重排序模型的广泛支持。
  • 异构 GPU 支持与扩展:轻松添加异构 GPU 资源,按需扩展算力规模。
  • 分布式推理:支持单机多卡并行和多机多卡并行推理。
  • 多推理后端支持:支持 llama-box(基于 llama.cpp 和 stable-diffusion.cpp)、vox-box 和 vLLM 作为推理后端(后面两个推理后端对摩尔线程 GPU 的支持还在适配中)。
  • 轻量级 Python 包:最小的依赖和操作开销。
  • OpenAI 兼容 API:提供兼容 OpenAI 标准的 API 服务。
  • 用户和 API 密钥管理:简化用户和 API 密钥的管理流程。
  • GPU 指标监控:实时监控 GPU 性能和利用率。
  • Token 使用和速率统计:有效跟踪 token 使用情况,并管理速率限制。

使用 GPUStack 纳管摩尔线程 GPU 进行大语言模型和文生图模型的推理​

准备工作​

  以下代码运行在 x86 架构的 Ubuntu 20.04/22.04 系统。

配置容器运行时​

请参考以下链接安装和配置容器运行时。

  1. 安装 Docker: Docker 安装指南
  2. 安装 MTT S80/S3000/S4000 驱动 (当前为 rc3.1.1): MUSA SDK 下载
  3. 安装 MT Container Toolkit (当前为 v1.9.0): MT CloudNative Toolkits 下载

检查容器运行时配置是否正确,确认输出的默认运行时为 mthreads

$ (cd /usr/bin/musa && sudo ./docker setup $PWD)
$ docker info | grep mthreadsRuntimes: mthreads mthreads-experimental runcDefault Runtime: mthreads

通过 Docker 运行 GPUStack​
$ docker run --pull always -d --name gpustack \--restart=unless-stopped \--network=host \--ipc=host \-v gpustack-data:/var/lib/gpustack \gpustack/gpustack:v0.6.0-musa

通过上述步骤,您将运行一个名为 gpustack 的容器,此容器使用主机网络模式并通过 80 端口来提供 WebUI 服务。您可以通过浏览器访问 http://localhost 来查看 GPUStack 的界面。

获取首次登录的密码​
$ docker exec -it gpustack bash
# cat /var/lib/gpustack/initial_admin_password

登录 GPUStack​

在浏览器中访问 http://localhost,输入用户名 admin 和上一步获取的密码进行登录。

查看摩尔线程 GPU 资源​

点击侧边栏中的 Resources 选项,您将看到 GPUStack 管理的所有 Worker 节点信息。

workers

通过切换 GPUs 选项卡,您可以查看每个 Worker 节点上 GPU 的使用情况和性能指标。

gpus

部署模型​

点击侧边栏中的 Models 选项,您将看到 GPUStack 管理的所有模型信息。

models-empty

通过点击右上角的 Deploy Model 按钮,您可以创建新的模型(为避免下载模型文件时间过长,此处我们部署两个已经下载好的模型)。

第一个模型是 deepseek-r1_7b_q4_0.gguf,它是将 DeepSeek-R1 Distill Qwen 7B 模型量化为 4-bit 的模型,具有较小的参数量和较快的推理速度。

models-ds

第二个模型是 stable-diffusion-v2-1_768-nonema-pruned.q4_0.gguf,它是将 Stable Diffusion 2.1 模型量化为 4-bit 的模型,具有较小的参数量和较快的推理速度。

models-sd

展开模型后,点击 replica 名称旁边的感叹号按钮,在弹出的对话框中,您可以查看模型使用的节点、GPU 和推理后端。

models

运行模型​

点击侧边栏中的 Playground 选项,您将看到 GPUStack 提供了多种模型的推理方式。

运行大语言模型​

点击侧边栏中的 Chat 选项,您可以与刚才部署的 deepseek-r1_7b_q4_0.gguf 模型进行对话。

chat

运行文生图模型​

点击侧边栏中的 Image 选项,您可以与刚才部署的 stable-diffusion-v2-1_768-nonema-pruned.q4_0.gguf 模型进行文生图的操作。

image

探索更多模型​

点击侧边栏中的 Catalog 选项,您可以查看 GPUStack 支持的更多模型。

catalog

http://www.dtcms.com/a/475060.html

相关文章:

  • 站长工具查询域名网络营销方式有哪些
  • 萧山区住房和城乡建设局网站进入公众号核酸检测
  • 记录oracle19c安装完成后,使用navcat连接数据库一直报错ORA-00922: 选项缺失或无效
  • 网站不被收录自建网站推广的最新发展
  • 泰安微信网站建设asp.net 当前网站
  • LINUX复习资料(二)
  • 基于视觉与IMU融合的地下停车场自动导航系统原理与实现
  • 国外域名购买网站品牌策划方案设计
  • 外设模块学习(5)——DS18B20温度传感器(STM32)
  • 网站增加点击率 怎样做app制作哪里正规
  • 自己做的网站慢是什么原因哪些网站微信支付平台
  • 编程语言比较从Java到C++,探索主流开发工具的特性与应用场景
  • 自定义网站模板科技公司网页设计欣赏
  • 【完整源码+数据集+部署教程】管道与支架检测系统源码和数据集:改进yolo11-RepNCSPELAN
  • 长沙便宜网站建设手机设计软件下载大全
  • Unity网络开发--自定义协议生成工具
  • 做宣传类网站需要什么资质浙江省建设执业注册中心网站
  • 怎么做视频解析的网站网站数据分析
  • 营销网站建站长沙营销型网站设计
  • 多输入,多输出来学英语
  • 矩阵的除法
  • 网站建设与优化推广方案内容WordPress安装插件要FTP
  • 合肥网站推广 公司哪家好手机论坛网站模板
  • 什么网站做唱歌主播网站建设 说明
  • 建设户外腰包网站旅游网站开发价格
  • CRYSTALS-Kyber在TLS 1.3中的实现挑战
  • 伴随矩阵的定义
  • PagedAttention详解
  • 网站搭建软件微信公众号对接网站如何做
  • 北京哪个公司做网站宁波网站设计制作