当前位置: 首页 > news >正文

GPT OSS 双模型上线,百度百舸全面支持快速部署

GPT OSS 是 OpenAI 推出的重量级开放模型,专为强推理能力、智能体任务及多样化开发场景设计,标志着大模型在开放性与实用性上的重要突破。

该系列包含两款高性能模型:参数规模为 117B 的 GPT‑OSS‑120B 和 21B 的 GPT‑OSS‑20B。二者皆采用 MoE 架构,并在 MoE 权重上创新性地使用 4‑bit 量化方案 MXFP4,显著降低资源占用,同时实现更高效的推理速度。得益于更少的激活参数,模型在保持强大性能的同时,具备更低的部署成本和更高的响应效率。

目前,百度百舸平台已经同步支持这 2 款模型的快速部署,为企业提供一站式 AI 服务,实现大模型落地「快稳省」的要求。

当前,百度百舸的推理服务支持部署 LLM、MLLM、VLA 等多种模型的高效推理,广泛服务于线教育、AIGC、医疗、具身智能等行业客户,助力客户实现推理业务的大规模、高稳定性运行。

推理服务快速部署流程

登录百度百舸·AI 异构计算平台,在「快速开始」找到 GPT-OSS-20B 模型。

图片

点击模型卡片的「一键部署」启动模型部署流程。

目前 GPT‑OSS 系列模型支持 vLLM 推理加速方式。百度百舸平台已集成 vLLM 推理加速框架,并会根据模型特性(例如,部署 GPT‑OSS‑20B 推荐配置为 1 卡 GPU、12 核 CPU、36GB 内存)智能推荐最优资源配置,用户可按需调整。

点击【确定】即可一键部署到百度百舸平台。

图片

部署服务时,可以使用「云原生网关」接入流量,支持查看 Token 用量监控、消费者鉴权、流量控制等功能,实现业务的高效、安全运营。

部署成功后,可以通过「在线服务」列表获取服务请求地址和 Token 调用信息,快速接入应用。

图片

百度百舸·AI 异构计算平台,是面向大模型训推一体化的基础设施,提供领先的 AI 工程加速能力,从资源准备、模型开发、模型训练到模型部署,为 AI 工程全周期提供丰富特性和极致易用体验。

http://www.dtcms.com/a/320474.html

相关文章:

  • MCP实现:.Net实现MCP服务端 + Ollama ,MCP服务端工具调用
  • 构建响应式在线客服聊天系统的前端实践 Vue3+ElementUI + CSS3
  • RAG实现:.Net + Ollama + Qdrant 实现文本向量化,实现简单RAG
  • 【优选算法】BFS解决拓扑排序
  • Spring Boot + ECharts 极简整合指南:从零实现动态数据可视化大屏
  • Java Stream API 详解与实战案例
  • 广东省省考备考(第七十天8.8)——言语、判断推理(强化训练)
  • Ubuntu 22.04 安装 Docker 完整指南
  • flutter TLS protocol versions: (TLSv1.2, TLSv1.3)
  • flutter开发(一)flutter命令行工具
  • Flutter开发 多孩子布局组件
  • 在 Debian 系统上安装 Redis服务
  • VRTE 的应用程序部署到Ubuntu上 报错:bash: ./rb_exmd: No such file or directory
  • Korg 电子琴 2025 高级电子琴手机版:专业的音乐创作与演奏工具
  • 平板探测器的主要技术指标
  • 电脑IP地址是“169.254.x.x”而无法上网的原因
  • ubuntu 22.04 使用yaml文件 修改静态ip
  • 论文阅读:AAAI 2024 ExpeL: LLM Agents Are Experiential Learners
  • openpnp - 不连接设备,只大概测试一下摄像头是否好使
  • Zabbix网络发现:自动化监控新利器
  • TestComplete 如何打造高效UI测试体系?
  • Vue开发的3D全景图效果
  • linux信号量和日志
  • 算法训练之字符串
  • 复杂水文环境下识别精度↑86%!陌讯多模态融合算法在水位监测中的优化实践
  • 四、redis入门之集群部署
  • 富士 Instax 12 和 Instax Mini 11 有什么区别?推荐购买哪一款?
  • 【JMeter】调试取样器的使用
  • 全场景音频工作流实践:Melody如何打造音源管理闭环
  • git | git bash变慢解决