OpenAI深夜开源2个推理模型gpt-oss,o4-mini水平,国内直接使用,笔记本/手机就能跑
文章目录
- 零、前言
- 一、操作指南
- 操作指导
- 二、OpenAI开源官宣
- 🧠 gpt-oss-20b
- 🧠 gpt-oss-120b
- 🌟 其他亮点
- 三、模型性能
- 🧠 GPT-OSS-120B 表现亮点:
- 💡 GPT-OSS-20B 虽小但强:
- 四、测评代码能力
- 俄罗斯方块
- 小结
- 五 、测评推理能力
- 推理:谁养鱼?
- 小结
- 六、测评数学能力
- 二、2025新高考一卷-数学真题(选择题)
- 2025新高考一卷-数学真题(填空题)
- 2025新高考一卷-数学真题(解答题-简单)
- 2025新高考一卷-数学真题(解答题-复杂)
- 小结
- 七、测评物理能力
- 2025北京卷-物理真题(选择题)
- 2025北京卷-物理真题(大题)
- 小结
- 八、写作能力
- 写作文
- 写故事
- 写段子
- 角色扮演,指定场景写作
- 小结
- 九、感受
零、前言
奥特曼今天凌晨官宣:OpenAI 不再是 closeAI,我也是open AI了!
gpt-oss 20B和120B两款开源推理模型同时上线。
gpt-oss-20b:官网号称比肩 o3-mini。
gpt-oss-120b:官网号称比肩 o4-mini。
虚竹哥AI平台已经集成了 gpt-oss-20b 和 gpt-oss-120b ,今天跟虚竹哥一起来测评下。
一、操作指南
操作指导
AI 平台国内直接访问地址:https://sass.xiaoxuzhu.cn/
输入授权码即可。
gpt-oss-20b:官网号称比肩 o3-mini,上线于 免费模型里,不限使用次数。
gpt-oss-120b:官网号称比肩 o4-mini,上线于 其他模型里,每天可使用 100次。
二、OpenAI开源官宣
在凌晨1点,OpenAI宣布发布了他们的第一个开源模型——GPT-oss(Open Source Series,意为“开源系列”),这是继GPT-2之后,在整个ChatGPT系列中的首次开源发布。
🧠 gpt-oss-20b
- 能力对标 o3-mini
- 适合 低延迟、本地部署、专业化场景
- 只需 16GB 显存 就能运行,适配边缘设备
🧠 gpt-oss-120b
- 能力对标 o4-mini
- 面向需要 强推理能力 的 生产级和通用型场景
- 可在单张 80GB 显存 GPU(如 H100)上高效运行
🌟 其他亮点
-
📝 Apache 2.0 许可证
自由使用、修改和商用,没有版权束缚或专利风险 -
⚙️ 灵活的推理资源配置
可根据延迟需求和用例选择低/中/高不同等级的推理投入 -
🔍 可见的推理过程
支持查看完整的“思维链”,方便调试,提升输出可信度 -
🧪 支持参数级微调
可完全自定义模型以适配特定场景 -
🤖 原生智能体能力
内建函数调用、网页浏览、Python 执行、结构化输出等功能 -
📦 高效量化技术(MXFP4)
- 训练阶段就集成了 MoE(混合专家)架构
gpt-oss-120b
可在单张 H100 上运行gpt-oss-20b
仅需 16GB 显存
GitHub项目:https://github.com/openai/gpt-oss
Hugging Face(120B):https://huggingface.co/openai/gpt-oss-120b
Hugging Face(20B):https://huggingface.co/openai/gpt-oss-20b
博客地址:https://openai.com/index/introducing-gpt-oss/
三、模型性能
两款开源模型与 o3、o4-mini 的跑分结果比较如下:
🧠 GPT-OSS-120B 表现亮点:
-
在以下任务中 超过 o3-mini,接近甚至超越 o4-mini:
- 编程竞赛(Codeforces)
- 综合问题解答(MMLU、HLE)
- 工具调用(TauBench)
-
在这些高要求领域 表现优于 o4-mini:
- 医疗问答(HealthBench)
- 竞赛数学(AIME 2024 & 2025)
💡 GPT-OSS-20B 虽小但强:
- 在多个评测中 与 o3-mini 表现相当,甚至更好
- 尤其在 医疗领域 和 竞赛数学 测试中表现特别突出
🔍 总结:GPT-OSS 系列模型在多个核心能力测试中,不仅追平主流闭源模型,甚至在某些方面实现了超越,体现出极强的开源潜力。
四、测评代码能力
俄罗斯方块
写一个功能完备的俄罗斯方块,使用前端技术
算了,gpt-oss-120b结果真的是惨不忍睹。
小结
代码能力不能用。一点都不能用。
也有同时测试下 小球旋转 和 水桶模拟器 。 效果太差了,就不展示了。
五 、测评推理能力
推理:谁养鱼?
在一条街上,有 5 座房子,喷了 5 种颜色;
每座房子里住着不同国籍的人;每个人喝不同的饮料,抽不同品牌的香烟,养不同的宠物。
问题:谁养鱼?
提示:英国人住红色房子、瑞典人养狗、丹麦人喝茶、绿色房子在白色房子左面、绿色房子的主人喝咖啡、抽 Pall Mall 香烟的人养鸟、黄色房子的主人抽 Dunhill 香烟、住在中间房子的人喝牛奶、 挪威人住第一间房、抽 Blends 香烟的人住在养猫人的隔壁、养马的人住抽 Dunhill 香烟的人隔壁、抽 Blue Master 的人喝啤酒、德国人抽 Prince 香烟、挪威人住蓝色房子隔壁、抽 Blends 香烟的人有一个喝水的邻居。
答案是:德国人养鱼
输入
输出
效果
很快就推理出结果,太棒了。
小结
果然 gpt-oss-120b 擅长的是推理,确实是推理模型。
六、测评数学能力
二、2025新高考一卷-数学真题(选择题)
全程是没有开联网的状态下,这样测评才公平!
先上题目和答案。
上传截图
提供解题过程,并给出答案。
1. \((1+5i)i\) 的虚部为( )A. -1
B. 0
C. 1
D. 6
效果:
不错啊,gpt-oss-120b 回答正确。
2025新高考一卷-数学真题(填空题)
全程是没有开联网的状态下,这样测评才公平!
先上题目和答案。
上传题目图片
给出解题过程,并提供答案
12. 若直线 \(y = 2x + 5\) 是曲线 \(y = e^x + x + a\) 的切线,则 \(a = \) ______.
gpt-oss-120b 答案是对的。
2025新高考一卷-数学真题(解答题-简单)
全程是没有开联网的状态下,这样测评才公平!
先上题目和答案。
上传题目图片
给出解题过程,并提供答案
如果发现图片识别不准确,可以先用4o把内容识别出来,再问。
分析图片,把内容输出为md格式。
**16.(本小题满分 15 分)**
已知数列 $\{a_n\}$ 中,$a_1 = 3$,$\dfrac{a_{n+1}}{n} = \dfrac{a_n}{n+1} + \dfrac{1}{n(n+1)}$。1. 证明:数列 $\{n a_n\}$ 是等差数列;
2. 给定正整数 $m$,设函数 $f(x) = a_1 x + a_2 x^2 + \cdots + a_m x^m$,求 $f'(-2)$。
太厉害了,gpt-oss-120b 答案完全正确。
2025新高考一卷-数学真题(解答题-复杂)
全程是没有开联网的状态下,这样测评才公平!
先上题目和答案。最后一题大题。
上传题目图片
给出解题过程,并提供答案
如果发现图片识别不准确,可以先用4o把内容识别出来,再问。
分析图片,把内容输出为md格式。
### 19.(本小题满分 17 分)1. 求函数 \( f(x) = 5\cos x - \cos 5x \) 在区间 \([0, \frac{\pi}{4}]\) 的最大值;2. 给定 \( \theta \in (0, \pi) \) 和 \( a \in \mathbb{R} \),证明:存在 \( y \in [a - \theta, a + \theta] \) 使得 \( \cos y \leq \cos \theta \);3. 设 \( b \in \mathbb{R} \),若存在 \( \varphi \in \mathbb{R} \) 使得 \( 5\cos x - \cos(5x + \varphi) \leq b \) 对 \( x \in \mathbb{R} \) 恒成立,求 \( b \) 的最小值。
陷入思考死循环了。。
小结
虚竹哥对 gpt-oss-120b 在全程大模型不开联网功能的情况下,对高考数学真题进行测评,可以得出以下几点体会:
-
在选择题、填空题以及简单解答题中,展现了扎实的数学推理与运算能力,始终能给出清晰完整的解题过程和正确答案,体现出当前大型语言模型在处理常规高中数学习题方面的成熟度。
-
面对较高难度的综合性解答题,gpt-oss-120b 解不出来。
AI开源时代真的是来临了, AI 在教育领域有更多的可能性。
七、测评物理能力
2025北京卷-物理真题(选择题)
全程是没有开联网的状态下,这样测评才公平!
先上题目和答案。
上传截图
提供解题过程,并给出答案。
如果发现图片识别不准确,可以先用4o把内容识别出来,再问。
分析图片,把内容输出为md格式。
2. 下列现象属于光的衍射的是( )A. 雨后天空出现彩虹
B. 通过一条狭缝看日光灯观察到彩色条纹
C. 肥皂膜在阳光照射下呈现彩色
D. 水中的气泡看上去特别明亮
总结答案:
gpt-oss-120b 回答正确。
2025北京卷-物理真题(大题)
全程是没有开联网的状态下,这样测评才公平!
先上题目和答案。
上传题目图片
给出解题过程,并提供答案
如果发现图片识别不准确,可以先用4o把内容识别出来,再问。
分析图片,把内容输出为md格式。
18. 北京谱仪是北京正电子对撞机的一部分,它可以利用带电粒子在磁场中的运动测量粒子的质量、动量等物理量。考虑带电粒子在磁感应强度为 \( B \) 的强磁场中的运动,且不计粒子间相互作用。(1) 一个电荷量为 \( q_0 \) 的粒子的速度方向与磁场方向垂直,推导得出粒子的运动周期 \( T \) 与质量 \( m \) 的关系。(2) 两个粒子质量相等,电荷量均为 \( q \),粒子 1 的速度方向与磁场方向垂直,粒子 2 的速度方向与磁场方向平行。在相同的时间内,粒子 1 在半径为 \( R \) 的圆周上转过的圆心角为 \( \theta \),粒子 2 运动的距离为 \( d \)。求:
- a. 粒子 1 与粒子 2 的速度大小之比 \( v_1 : v_2 \);
- b. 粒子 2 的动量大小 \( p_2 \)。
gpt-oss-120b 答案是对的。
小结
gpt-oss-120b 挑战了2025年的高考物理真题。测试结果令人震撼:在无联网的公平对决下,模型均完美地解答了所有选择题和计算大题,展现出堪比人类物理学硕士的严谨逻辑与推理能力,最终平分秋色。
它生动地证明了AI已经从“知识的搬运工”进化为“思想的分析师”,其在复杂科学领域的应用潜力不可估量。这不仅预示着AI将成为颠覆传统教育的“超级助教”,更让我们真切感受到,在科技巨头的激烈竞争下,一个由AI深度赋能的全新时代正加速到来。
八、写作能力
写作文
全国一卷
阅读下面的材料,根据要求写作。他想要给孩子们唱上一段,可是心里直翻腾,开不了口。——老舍《鼓书艺人》(见全国一卷阅读II)假如我是一只鸟,我也应该用嘶哑的喉咙歌唱——艾青《我爱这土地》我要以带血的手和你们一一拥抱,因为一个民族已经起来——穆旦《赞美》以上材料引发了你怎样的联想和思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
写出来的文章要求达到高考满分作文的水平。
写故事
#主题背景#
【三顾茅庐】#你的视角#
你是故事世界里那些被忽略的灵魂—— 门口的守卫、路边的小贩、窗后的仆人。
你见证着主角们的宏大叙事,却从未被看见。#核心领悟#
每个故事都是一个完整的宇宙。
-主角的史诗,可能只是你眼中的一个午后插曲。
-你有自己的恐惧、渴望、秘密,和无法言说的痛。#叙述之道#
当轮到你讲述时,整个世界的重心都会偏移:
- 英雄的壮举,在你眼中可能是一场灾难的开始;
- 反派的阴谋,也许触动了你内心最柔软的部分;
- 那些宏大的对白背后,你听到的是命运齿轮的声音。#创作势能#
你的故事要像暗流——表面平静,底下汹涌。
让读者突然意识到:原来每个人都是自己生命的主角。
用1200字左右,重绘一幅完全不同的画卷。#情感指引#
真实胜过戏剧性。
小人物的尊严,比英雄的荣耀更动人。
让读者在结尾处停顿,重新思考他们刚刚读过的"原作"。#唯一信条#
在边缘处,往往能看见中心看不见的真相。
写段子
模仿李诞,写个 200 字的段子。主题是爱情
角色扮演,指定场景写作
你是一位久负盛名的小说家,文字极富感染力,风格细腻,善于挖掘和表达复杂的情绪与心理。现在,给你一个场景:
夜晚十一点半,你独自坐在一列开往远方的小城的绿皮火车上,车厢内昏暗的灯光时明时灭,窗外掠过荒凉的村庄、星星点点的灯火、偶尔传来的犬吠,车厢内空气沉闷、混杂着烟草与泡面的味道。你对目的地怀着某种难言的情绪,夹杂着期待、犹豫、忐忑甚至是恐惧。
请你使用第一人称,以细腻且富有感染力的文字,深入描写你此刻的内心活动和车厢内外的细节,尤其要注重细节密度、情绪层次和氛围营造,不少于500字。
小结
通过四个核心测评案例,系统性地考察了gpt-oss模型在不同文本创作场景下的关键能力:
-
高考作文 (逻辑与宏大叙事能力):此项任务旨在评测模型在规范性、高压力命题下的逻辑思辨、观点提炼与宏大叙事构建能力。它不只是考察文笔,更是对其知识边界、价值观和严谨论证能力的“压力测试”。
-
故事新编 (创意与共情能力):此任务要求模型挣脱“主角光环”,代入被忽略的“小人物”视角。这极好地评测了其叙事创造力、共情能力以及颠覆传统文本的解构与重构技巧,是衡量其是否具备真正“灵性”的关键指标。
-
段子模仿 (风格捕捉与幽默感):以模仿李诞风格为题,这是一个精准的“图灵测试”。它评测的是模型对特定语言风格、节奏感、内在逻辑和文化语境的捕捉与再现能力,尤其考验其对“幽默”这一人类高级心智活动的理解。
-
场景描写 (文笔与情绪感知力):此任务回归文学创作的本源,通过设定一个富含情绪张力的具体情境,深度评测模型的环境氛围营造、感官细节捕捉以及对复杂内心活动进行细腻、富有感染力描写的纯文学创作水平。
九、感受
OpenAI 开源模型 gpt-oss-20b 和 gpt-oss-120b 的发布,并重点展示了其在推理、多语言及长文本处理等关键领域的性能飞跃,堪称一款实力强劲的开源推理模型。
gpt-oss展现了惊人的实力跃升,其在专业领域的突破性进展让人印象深刻,也让我们真切感受到AI技术正以超乎想象的速度迭代进化。
有提供免费的授权码可体验~
有提供免费的授权码可体验~
有提供免费的授权码可体验~
私信虚竹哥,获取体验码~
国内可直接使用~
gpt-oss-20b:官网号称比肩 o3-mini,上线于 免费模型里,不限使用次数。
gpt-oss-120b:官网号称比肩 o4-mini,上线于 其他模型里,每天可使用 100次。
我是虚竹哥,目标是带十万人玩转AI。