当前位置: 首页 > news >正文

火山引擎云上实战:QwQ-32B 大模型快速部署

动图封面


来源 | 火山引擎云基础

在过去一年中,AI 技术取得了突飞猛进的发展,成为各行各业的主要创新驱动力。面对层出不穷的大模型,企业更关注的是如何将这些技术真正落地,如何通过大模型驱动业务增长,并实现智能转型的目标。在这个背景下,火山引擎云基础推出了一系列 云上实践 ,助力企业用户快速体验各类大模型。

QwQ-32B 是近期社区新开源的推理模型,在 AIME24 评测集(数学推理)、LiveCodeBench(编程能力)、LiveBench、IFEval 指令遵循能力测试、BFCL 评测等一系列权威基准测试中表现出色。它通过大规模强化学习技术突提升了语言模型的智能水平,具体表现在其 “思维链显式化” 能力,在推理过程中会展示完整的思考路径,增强了结果的可解释性。

为方便企业用户快速在云上环境体验 QwQ-32B 大模型,本文将结合火山引擎 GPU ECS 、 容器服务 VKE 、 持续交付 CP 等产品,推出一种快速部署 QwQ-32B 推理服务的方案,我们将采用 vLLM 拉起推理服务。

QwQ-32B 大模型部署

Step1:创建 VKE 集群

在正式部署 QwQ-32B 模型推理服务前,我们需要先完成 VKE 集群的创建。容器服务 VKE 是火山引擎提供的基于 Kubernetes 的容器管理平台,能高效、可靠地管理 AI 业务所需的海量异构计算、存储、网络等资源,并提供云下弹云上、跨云弹性等分布式云原生能力,为 AI 大模型提供灵活、可扩展的部署和运行环境。

首先,进入火山引擎容器服务 VKE 工作台: 账号登录-火山引擎 ,创建托管集群,网络模型建议选择 VPC-CNI:


通过内外资源共池,火山引擎能为用户提供海量高弹性、高性价比的算力产品,覆盖丰富型号,以满足企业在依托 AI 技术进行数智化转型过程中对算力的需求。
QwQ-32B 参数规模达到 320 亿,需要保证显卡总的显存保持在 80G 或以上,因此用户可以根据实际的情况来选择不同规格的 GPU ECS。不同规格的机器在启动命令配置上会有些许差异,我们推荐 ECS 机器型号如下:


注:ecs.pni3l/ecs.
gni3cl
目前处于邀测阶段,欢迎联系客户经理申请
最后,在创建集群过程中,我们需要选择组件配置,这里要额外选择 csi-tos 和 nvidia-device-plugin 两个组件进行安装(相关文档:https://www.volcengine.com/docs/6460/101014 ):


Step2:创建部署集群
为了提高开发效率,这里我们推荐使用火山引擎持续交付 CP 的 AI 应用功能,它提供预置模板,集成了主流的 AI 框架,封装了操作系统、AI 框架、依赖库等应用环境,可以完成 QwQ-32B 在容器服务中的快速部署。
1. 打开火山引擎持续交付 CP 的产品工作台: https://console.volcengine.com/cp ,在左侧菜单栏选择 “资源管理-部署资源”,点击“创建部署资源”:


2.在创建部署资源表单中,“接入类型”选择“容器服务 VKE”,“地域”以及“部署集群”选中刚刚我们创建的部署 VKE 集群,“共享范围”选择“所有工作区”:


Step3:创建AI 应用
1.基础信息配置:在持续交付 CP 工作台左侧菜单栏选择“AI 应用”(邀测功能,欢迎联系客户经理申请),点击“创建应用”:


2.在应用创建表单中,选择“自定义创建”:


3.完成应用名、部署集群配置。需要注意的是,这里的部署集群需要选择上面创建的部署集群:


4.完成启动镜像和模型的配置。针对 QwQ-32B,这里我们可以选择 vLLM 镜像进行部署;模型可以直接选择 “官方模型”中的 QwQ-32B,挂载路径配置为 “/model”:


vLLM 默认的启动命令如下所示,用户也可以根据实际推理服务的需求,对默认启动命令做修改。


其中 GPU_NUM 为所选择机型 GPU卡数量,需要根据实际机型中 GPU 卡数量做修改。
1.完成推理服务规格配置。实例数选择 1,根据不同机型,我们可以选择不同的配置,下表是一些推荐建议:


注:ecs.pni3l/ecs.
gni3cl
目前处于邀测阶段,欢迎联系客户经理申请
以下是 ecs.gni3cl.11xlarge 的推荐配置:


到这里,我们成功触发了 AI 应用部署,等待约 5 分钟左右,属于你的 QwQ-32B 服务就部署完成了。


Step4:创建 API 网关访问推理服务
火山引擎 API 网关 APIG 是基于云原生的、高扩展、高可用的云上网关托管服务。在传统流量网关的基础上,集成丰富的服务发现和服务治理能力,打通微服务架构的内外部网络,实现安全通信。
1.在 AI 应用页面,点击 “访问设置”:


2.选择“添加 API 网关”,协议选择 HTTP1.1,如果还没有创建 API 网关,可以点击“创建 API 网关”:


3.在创建API 网关时, 私有网络配置必须和之前创建 VKE 集群使用同一个私有网络, 网关的规格选择 1c2g,节点数量选择两个节点:


4.完成创建后,选中 API 网关即可:


5.完成上述操作后,即可在“访问设置”页面看到公网域名:


到这里,我们就正式完成了 QwQ-32B 推理服务 的部署和对外暴露,我们可以通过本地 curl 命令(如下方所示)调用 API 来体验大模型的问答能力:


小结
以上就是基于火山引擎 GPU ECS、容器服务 VKE 等产品快速拉起 QwQ-32B 大模型服务的全过程,而结合火山引擎丰富的云服务和产品,企业级客户可以进一步调整和优化架构,以充分发挥大模型的潜力。

相关文章:

  • Python小练习 Vol.1:汉诺塔的移动(递归思维初体验)
  • 深度学习基础-----神经⽹络与深度学习((美)MichaelNielsen )
  • VMware三种网络模式对比总结
  • 基于大模型的肿瘤预测与全流程诊疗辅助系统技术文档
  • 初见Springboot
  • Lag-Llama时间序列模型简单实现数据预测
  • Elasticsearch7.X建模各属性文档
  • 【深度学习与实践】线性回归模型
  • °C 展示方式
  • 怎样基于安卓部署deepseek?
  • (UI自动化测试web端)第二篇:元素定位的方法_css定位之css选择器
  • ZZ052-大数据应用与服务-竞赛样题 部分自己解析
  • Vue3 中使用 vuedraggable 实现拖拽排序功能,分组拖拽
  • 虚拟机CentOS-7安装redis教程
  • 红帽认证工程师报考条件
  • Linux 设备分类详解:字符设备、块设备与网络设备解析
  • 算法-二分查找
  • (番外篇一)学习webgl是先从现有的框架还是直接从底层开始学?
  • 小米15怎么录音转文字?录音转文字技巧软件、分享
  • LarkXR用户调研洞察:2024-2025年度平行云客户满意度报告
  • html5深圳网站开发/病毒式营销案例
  • 西安直播网站开发/超能搜索引擎系统网站
  • 做网站要不要花钱做店长/长春seo招聘
  • 嘉兴做网站优化公司/免费seo推广公司
  • wordpress 默认编辑器/seo软件工具
  • 南京网站建设 雷仁网络/超级seo外链工具