当前位置：首页 > news >正文

H20 性能表现之 gpt-oss-120b

news 2025/9/1 3:47:19

昨天 OpenAI 发布了其史上的首个开源大模型 gpt-oss-120b，虽然风头被隔壁家谷歌的 Genie3 给盖了，但好在模型确实能打，以120B的参数硬刚200B以上的模型，而且还是原生的4BIT训练出来的，整个模型大小才60多G，是平民都能部署的大大模型了，让我们来看看它在H20上的性能表现吧。

值得表扬的是模型非常小，一张卡就足够完成推理，所以这次的测试我只使用了一张H20。我们先来看代码生成的表现吧（短输入）。

单用户吞吐率相当厉害，一张卡就可以达到166 token/s，时延方面则表现平平。不过，随着并发数的增加，吞吐率下降明显。然而到了128并发，还有25 token/s。

再来看看长输入的表现（也就是知识库应用场景）

吞吐率还是不错的，但首字时延确实不大好，单用户得有6.4秒的时延了，要知道我这个测试案例的输入也就才4K的上下文。并发达到8时，首字时延也接近10秒了。再往上首字时延就不大能接受了。

这个性能表现虽然看上去不大好，但考虑只使用了一张卡，所以还是可圈可点的，我们只要把并行开几个实例就可以解决并发的问题。甚至，可以使用 dynamo 这个框架来把 prefill 与 decode 分开，从而大大提高吞吐率。（关于这个主题，我会在后面再分享观点，请关注我以获取最新文章）

http://www.dtcms.com/a/352795.html

相关文章：

软考-系统架构设计师管理信息系统(MIS)详细讲解

React内网开发代理配置详解

C++ 力扣 704.二分查找基础二分查找题解每日一题

Https之(四)国密GMTLS

【Redis#8】Redis 数据结构 -- Zset 类型

改造thinkphp6的命令行工具和分批次导出大量数据

GTCB：引领金融革命，打造数字经济时代标杆

【js】加密库sha.js 严重漏洞速查

UTXO 模型及扩展模型

香港数字资产交易市场蓬勃发展，监管与创新并驾齐驱

完整实验命令解析：从集群搭建到负载均衡配置（2）

记录使用ruoyi-flowable开发部署中出现的问题以及解决方法(二)

电脑开机显示器不亮

智能安防：以AI重塑安全新边界

欧盟《人工智能法案》生效一年主要实施进展概览（一）

docker-runc not installed on system

【科研绘图系列】R语言在海洋生态学数据可视化中的应用：以浮游植物叶绿素和初级生产力为例

Kafka 4.0 兼容性矩阵解读、升级顺序与降级边界

[特殊字符]论一个 bug 如何经过千难万险占领线上

大数据毕业设计选题推荐-基于大数据的城镇居民食品消费量数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData

electron应用开发：命令npm install electron的执行逻辑

搜狗拼音输入法的一个bug

解锁Java分布式魔法：CAP与BASE的奇幻冒险

如何安装 mysql-installer-community-8.0.21.0.tar.gz（Linux 详细教程附安装包下载）

配置ipv6

UE5蓝图接口的创建和使用方法

【C语言强化训练16天】--从基础到进阶的蜕变之旅:Day14

在 Ubuntu 系统上安装 MySQL

KDMS V4 重磅升级，智能迁移赋能国产化替代！

Ubuntu下MySQL、MongoDB与Redis：从安装到协同的完整指南