当前位置：首页 > news >正文

GPT OSS 双模型上线，百度百舸全面支持快速部署

news 2025/10/11 8:13:58

GPT OSS 是 OpenAI 推出的重量级开放模型，专为强推理能力、智能体任务及多样化开发场景设计，标志着大模型在开放性与实用性上的重要突破。

该系列包含两款高性能模型：参数规模为 117B 的 GPT‑OSS‑120B 和 21B 的 GPT‑OSS‑20B。二者皆采用 MoE 架构，并在 MoE 权重上创新性地使用 4‑bit 量化方案 MXFP4，显著降低资源占用，同时实现更高效的推理速度。得益于更少的激活参数，模型在保持强大性能的同时，具备更低的部署成本和更高的响应效率。

目前，百度百舸平台已经同步支持这 2 款模型的快速部署，为企业提供一站式 AI 服务，实现大模型落地「快稳省」的要求。

当前，百度百舸的推理服务支持部署 LLM、MLLM、VLA 等多种模型的高效推理，广泛服务于线教育、AIGC、医疗、具身智能等行业客户，助力客户实现推理业务的大规模、高稳定性运行。

推理服务快速部署流程

登录百度百舸·AI 异构计算平台，在「快速开始」找到 GPT-OSS-20B 模型。

点击模型卡片的「一键部署」启动模型部署流程。

目前 GPT‑OSS 系列模型支持 vLLM 推理加速方式。百度百舸平台已集成 vLLM 推理加速框架，并会根据模型特性（例如，部署 GPT‑OSS‑20B 推荐配置为 1 卡 GPU、12 核 CPU、36GB 内存）智能推荐最优资源配置，用户可按需调整。

点击【确定】即可一键部署到百度百舸平台。

部署服务时，可以使用「云原生网关」接入流量，支持查看 Token 用量监控、消费者鉴权、流量控制等功能，实现业务的高效、安全运营。

部署成功后，可以通过「在线服务」列表获取服务请求地址和 Token 调用信息，快速接入应用。

百度百舸·AI 异构计算平台，是面向大模型训推一体化的基础设施，提供领先的 AI 工程加速能力，从资源准备、模型开发、模型训练到模型部署，为 AI 工程全周期提供丰富特性和极致易用体验。

http://www.dtcms.com/a/320474.html

相关文章：

MCP实现：.Net实现MCP服务端 + Ollama ，MCP服务端工具调用

构建响应式在线客服聊天系统的前端实践 Vue3+ElementUI + CSS3

RAG实现：.Net + Ollama + Qdrant 实现文本向量化，实现简单RAG

【优选算法】BFS解决拓扑排序

Spring Boot + ECharts 极简整合指南：从零实现动态数据可视化大屏

Java Stream API 详解与实战案例

广东省省考备考（第七十天8.8）——言语、判断推理（强化训练）

Ubuntu 22.04 安装 Docker 完整指南

flutter TLS protocol versions: (TLSv1.2, TLSv1.3)

flutter开发（一）flutter命令行工具

Flutter开发多孩子布局组件

在 Debian 系统上安装 Redis服务

VRTE 的应用程序部署到Ubuntu上报错：bash: ./rb_exmd: No such file or directory

Korg 电子琴 2025 高级电子琴手机版：专业的音乐创作与演奏工具

平板探测器的主要技术指标

电脑IP地址是“169.254.x.x”而无法上网的原因

ubuntu 22.04 使用yaml文件修改静态ip

论文阅读：AAAI 2024 ExpeL: LLM Agents Are Experiential Learners

openpnp - 不连接设备，只大概测试一下摄像头是否好使

Zabbix网络发现：自动化监控新利器

TestComplete 如何打造高效UI测试体系？

Vue开发的3D全景图效果

linux信号量和日志

算法训练之字符串

复杂水文环境下识别精度↑86%！陌讯多模态融合算法在水位监测中的优化实践

四、redis入门之集群部署

富士 Instax 12 和 Instax Mini 11 有什么区别？推荐购买哪一款？

【JMeter】调试取样器的使用

全场景音频工作流实践：Melody如何打造音源管理闭环

git | git bash变慢解决