当前位置: 首页 > news >正文

【大模型系列】gpt-oss系列模型初探

1. 背景

        前一周,大模型领域很热闹,Qwen-235B和GLM-4.5陆续推出,模型能力都非常不错,GLM-4.5更是霸榜开源大模型第一。

        2025年8月5日Open AI也坐不住了,开源了gpt-oss系列模型【1】。他们发布了 gpt-oss-120b 和 gpt-oss-20b——两款性能不错的开源轻量级语言模型,能够在低成本环境下实现强大的实际应用表现。gpt-oss-120B vs GLM-4.5: Model Comparison做了gpt-120b与glm-4.5的对比。

        现在的大模型,经过DeepSeek浪潮之后,不约而同都选择了MOE架构。

        这两款模型,在同等规模的开源模型中展现出更优的推理能力,具备出色的工具使用功能,并针对消费级硬件上的高效部署进行了优化。其训练融合了强化学习技术与受 OpenAI 最先进内部模型(包括 o3 及其他前沿系统)启发的方法。

        据报告,gpt-oss-120b 在核心推理基准测试中的表现接近 OpenAI 的 o4-mini 模型,同时可在单个 80GB GPU 上高效运行;而 gpt-oss-20b 在常见基准测试中与 OpenAI 的 o3-mini 模型水平相当,且仅需 16GB 内存即可在边缘设备上运行,使其成为设备端应用、本地推理或低资源快速迭代的理想选择。两款模型在工具调用、少样本函数执行、思维链推理(CoT)以及 HealthBench 测试中均表现强劲,部分结果甚至优于 OpenAI o1 和 GPT-4o 等专有模型。

        model card【2】给出了两个模型在不同推理水平上的准确性差异。        

        这些模型与其回复 API⁠兼容,专为智能体工作流设计,具备出色的指令执行能力、工具集成能力(如网页搜索和 Python 代码执行)以及灵活的推理能力,可根据任务需求动态调整推理强度,尤其适用于对延迟敏感或无需深度推理的场景。模型支持完整的思维链输出和结构化输出⁠,并允许用户进行深度定制。

        安全被视作模型发布的核心原则,尤其是在开源背景下更为重要。除常规的安全训练与评估外,他们还引入了额外的评估层级:通过测试一个经过对抗性微调的 gpt-oss-120b 版本,在其《防范准备框架》⁠下验证模型的安全性。结果显示,gpt-oss 系列模型在内部安全基准上的表现与其最先进的闭源模型相当,为开发者提供了与近期专有模型同等的安全保障。

2. 模型介绍

        他们介绍了 gpt-oss 模型的预训练方法与模型架构。这些模型采用了其最先进的预训练和后训练技术,重点优化了推理能力、运行效率以及在多种部署环境下的实用性。尽管他们此前已开源了如 Whisper⁠ 和 CLIP⁠ 等模型,但 gpt-oss 系列是自 GPT‑2以来首次发布的开放大型语言模型。

        每个 gpt-oss 模型均基于 Transformer 架构,并引入了专家混合机制(MoE),以降低处理输入时所需的激活参数数量,从而提升计算效率。其中,gpt-oss-120b 在每个令牌处理过程中激活 51 亿参数,总参数量达 1,170 亿;gpt-oss-20b 则激活 36 亿参数,总参数量为 210 亿。模型采用了交替的密集注意力与局部带状稀疏注意力结构,设计上与 GPT‑3 相似。为进一步提升推理速度和内存使用效率,模型还集成了分组多查询注意力机制,分组大小为 8。

        在位置编码方面,他们采用了旋转位置嵌入(RoPE),并原生支持最长 128k 的上下文长度,适用于长文本处理任务。模型的训练基于一个高质量、以英文为主的纯文本数据集,重点覆盖 STEM、编程以及通用知识领域。在数据令牌化过程中,使用了名为 ‘o200k_harmony’ 的分词器,该分词器是 OpenAI o4-mini 和 GPT‑4o 所用分词器的超集,他们也于同日将其开源。

        gpt-oss 采用了与 OpenAI o4-mini 类似的后训练流程,包括监督式微调阶段以及高计算量的强化学习阶段。其主要目标是使模型符合《OpenAI 模型规范》⁠,并具备在生成回答前主动应用思维链(CoT)推理和工具使用的能力。通过借鉴其最先进的专有推理模型所使用的技术,这些开源模型在完成训练后展现出优异的综合性能。

        与 OpenAI o 系列推理模型在 API 中的实现方式类似,gpt-oss-120b 和 gpt-oss-20b 支持三种可调节的推理强度——低、中、高,允许在响应延迟与推理质量之间进行灵活权衡。开发者可通过在系统消息中添加简短指令,轻松设定所需的推理难度。

3. 模型评测

        在评估方面,他们对 gpt-oss-120b 和 gpt-oss-20b 在多个标准学术基准上进行了测试,涵盖编程、竞赛数学、医疗问答以及智能体工具使用能力,并与 OpenAI 的多个推理模型(包括 o3、o3-mini 和 o4-mini)进行了对比。

        

        评估结果显示,gpt-oss-120b 在竞赛编程(Codeforces)、通用知识问答(MMLU 和 HLE)以及工具调用能力(TauBench)方面优于 o3-mini,表现与 o4-mini 相当甚至更优。此外,它在健康领域任务(HealthBench⁠)和竞赛数学(AIME 2024 与 2025)上的表现也超过了 o4-mini。尽管 gpt-oss-20b 规模较小,但在相同测试中仍达到了与 o3-mini 相当或更优的水平,尤其在竞赛数学和医疗任务中表现突出。

       还有一份更详细的但比较模糊的对比报告,哈哈,先让子弹飞一会【3】。

4. 模型试用

        不得不说,激活参数只有5.1B的时候,性能是杠杠的,推理速度非常快!可以在gpt-oss playground【4】进行试用。

    说实话,推理链中出现一些奇怪的描述,还挺有意思:

    

5. 参考材料

【1】https://huggingface.co/blog/welcome-openai-gpt-oss

【2】gpt-oss model card

【3】gpt-oss from 赛博禅心

【4】gpt-oss

http://www.dtcms.com/a/318463.html

相关文章:

  • ACL 2025 Oral|Evaluation Agent:面向视觉生成模型的高效可提示的评估框架
  • 服务器重启后mysql5.7启动失败问题
  • MySql_忘记了root密码怎么办
  • win服务器系统10060问题解决
  • Kali Linux虚拟机安装和中文配置详细教程(2025版)
  • Sklearn 机器学习 数据聚类 DBSCAN聚类算法的异常点
  • MicrochipSam9x60 PIO寄存器操作流程
  • TypeScript 元组类型精简知识点
  • 网络拨测和业务拨测是什么意思
  • 【Create my OS】8 文件系统
  • 【Go】新版GORM自动字段映射规则
  • 基于深度学习的医学图像分析:使用Diffusion Models实现医学图像生成
  • word2vector细致分解(CBOW, SKIP_GRAM, 层次soft Max, 负采样)
  • 8月6日星期三今日早报简报微语报早读
  • 机器学习 朴素贝叶斯
  • 园区误报率↓79%!陌讯多模态融合算法在智慧环卫越界识别的工程实践
  • 防火墙及firewall工具详解
  • AI增强的软件测试工具
  • 解决pytorch-lightning1.6.0安装时自动下载最新的pytorch方法
  • 《深入浅出Embedding》这本书
  • 高等数学(工本)----00023 速记宝典
  • <2> Elasticsearch大规模数据迁移实战:从内存暴涨到优化策略
  • 令牌桶限流算法
  • 《动手学深度学习》读书笔记—9.3深度循环神经网络
  • 数字图像处理(冈萨雷斯)第三版:第四章——空间滤波与频域滤波(平滑与锐化)——主要内容和重点
  • SQL166 删除索引
  • 一篇认识synchronized锁
  • JAVA--流程控制语句
  • Android—服务+通知=>前台服务
  • shell基础之EOF的用法