当前位置: 首页 > news >正文

微软宣布开源大模型gpt-oss在Azure平台实现性能突破

近日微软宣布,其开源大模型系列gpt-oss已在Azure AI Foundry国际版全面部署,并发布针对Azure NV A10与NC H100两种主流GPU机型的性能测评数据。作为OpenAI技术生态的重要延伸,该系列模型在推理效率、长文本处理及边缘部署能力上实现显著突破,为企业客户提供了更灵活的AI基础设施选择。

双模型架构覆盖全场景需求

本次发布的gpt-oss系列包含两款核心模型:1200亿参数的gpt-oss-120b与200亿参数的gpt-oss-20b。其中,gpt-oss-120b在核心推理基准测试中表现媲美OpenAI o4-mini,且可在单块80GB显存的NC H100机型上高效运行;而gpt-oss-20b则以接近o3-mini的性能,突破性地实现在16GB内存边缘设备上的部署能力,为本地推理、端侧AI及低成本快速迭代场景提供全新解决方案。

技术革新:MXFP4量化与Sink Token机制

微软Azure团队重点优化了模型量化与注意力机制:

  • MXFP4混合精度压缩:通过动态缩放与指数尾数编码技术,在保持小数值精度的同时,将大值截断误差控制在可接受范围,实现模型体积与推理效率的平衡。
  • Sink Token长文本加速:该机制通过在输入序列首部插入全局锚点Token,结合FlashAttention-3内核优化,在超长文本(≥32k tokens)场景下将首token生成时间(TTFT)降低60%,吞吐量提升2.3倍。测试显示,搭载H100 GPU的Azure NC机型在运行gpt-oss-20b时,可实现45-55 tokens/s的持续推理速度,TTFT控制在1秒以内。

Azure平台适配性突破

针对不同GPU架构,微软提供定制化部署方案:

  • H100高端机型:通过vLLM框架与FA3内核深度集成,gpt-oss-120b在2000并发请求测试中达到32.9 req/s的吞吐量,单卡生成速率达4215 tokens/s,TTFT中位数仅3.36秒。
  • A10性价比机型:采用Ollama框架与MXFP4量化技术,gpt-oss-20b在单卡A10上实现45-55 tokens/s的稳定输出,内存占用降低70%,支持中小企业低成本部署。

行业应用与生态共建

微软强调,gpt-oss系列已通过Azure AI Foundry实现一键部署,并集成到Power Platform、Dynamics 365等企业服务中。在医疗领域,该模型在HealthBench基准测试中超越GPT-4o等专有模型;在代码生成场景,可快速生成完整Python程序(如终端Tetris游戏),展现强大多模态能力。

微软Azure AI负责人表示:"gpt-oss的开源特性与Azure的弹性算力结合,将推动AI民主化进程。我们计划年内推出针对A100机型的混合部署方案,并持续优化FA3内核对长文本场景的支持。"

作为微软中国南区核心合作伙伴及HKCSP 1T首批授权云服务商之一,领驭科技正积极整合Azure OpenAI的强大功能,包括先进的自然语言处理、分析和推理能力,到其产品和行业解决方案中。

Azure OpenAI服务通过其大规模生成式AI模型,支持企业客户根据特定需求和场景,开发创新应用,涵盖辅助写作、代码编写、多媒体内容生成以及数据分析等多个领域,为互联网、游戏、金融、零售、医药等行业以及自动驾驶和智能制造等前沿技术领域带来深远影响。

http://www.dtcms.com/a/340332.html

相关文章:

  • Azure 使用记录
  • Claude Code NPM 包发布命令
  • 【Linux系统】匿名管道以及进程池的简单实现
  • 测试环境搭建和部署(在Linux环境下搭建jdk+Tomcat+mysql环境和项目包的部署)
  • 暖哇科技AI调查智能体上线,引领保险调查风控智能化升级
  • cv2.bitwise_and是 OpenCV 中用于执行按位与运算的核心函数,主要用于图像处理中的像素级操作
  • 【密码学实战】X86、ARM、RISC-V 全量指令集与密码加速技术全景解析
  • 【考研408数据结构-09】 图论进阶:最短路径与最小生成树
  • 【考研408数据结构-05】 串与KMP算法:模式匹配的艺术
  • [论文阅读] 人工智能 + 软件工程 | 从用户需求到产品迭代:特征请求研究的全景解析
  • 【软考架构】软件工程:软件项目管理
  • 用倒计时软件为考研备考精准导航 复习 模拟考试 日期倒计时都可以用
  • SBOM风险预警 | NPM前端框架 javaxscript 遭受投毒窃取浏览器cookie
  • vue3 el-select 默认选中第一个
  • 使用Redis 分布式锁防止短信验证码重复下发问题
  • 《防雷电路设计》---TVS介绍
  • Linux系统之部署nullboard任务管理工具
  • C++/Qt开发:TCP通信连接软件测试方法:ECHO指令
  • C++中的原子操作,自旋锁
  • Vibe Coding:轻松的幻觉,沉重的未来
  • HTML <meta name=“color-scheme“>:自动适配系统深色 / 浅色模式
  • AutoGLM2.0背后的云手机和虚拟机分析(非使用案例)
  • Mac 4步 安装 Jenv 管理多版本JDK
  • 基于YOLO11的手机违规使用检测模型训练实战
  • MySQL诊断系列(3/6):索引分析——5个SQL揪出“僵尸索引”
  • Docker Compose命令一览(Docker Compose指令、docker-compose命令)
  • 动态规划----8.乘积最大子数组
  • 遥感机器学习入门实战教程|Sklearn 案例④ :多分类器对比(SVM / RF / kNN / Logistic...)
  • 详解 scikit-learn 数据预处理工具:从理论到实践
  • 5.4 4pnpm 使用介绍