当前位置: 首页 > news >正文

H20 性能表现之 gpt-oss-120b

昨天 OpenAI 发布了其史上的首个开源大模型 gpt-oss-120b,虽然风头被隔壁家谷歌的 Genie3 给盖了,但好在模型确实能打,以120B的参数硬刚200B以上的模型,而且还是原生的4BIT训练出来的,整个模型大小才60多G,是平民都能部署的大大模型了,让我们来看看它在H20上的性能表现吧。

值得表扬的是模型非常小,一张卡就足够完成推理,所以这次的测试我只使用了一张H20。我们先来看代码生成的表现吧(短输入)。

单用户吞吐率相当厉害,一张卡就可以达到166 token/s,时延方面则表现平平。不过,随着并发数的增加,吞吐率下降明显。然而到了128并发,还有25 token/s

再来看看长输入的表现(也就是知识库应用场景

吞吐率还是不错的,但首字时延确实不大好,单用户得有6.4秒的时延了,要知道我这个测试案例的输入也就才4K的上下文。并发达到8时,首字时延也接近10秒了。再往上首字时延就不大能接受了。

这个性能表现虽然看上去不大好,但考虑只使用了一张卡,所以还是可圈可点的,我们只要把并行开几个实例就可以解决并发的问题。甚至,可以使用 dynamo 这个框架来把 prefill 与 decode 分开,从而大大提高吞吐率。(关于这个主题,我会在后面再分享观点,请关注我以获取最新文章)

http://www.dtcms.com/a/352795.html

相关文章:

  • 软考-系统架构设计师 管理信息系统(MIS)详细讲解
  • React内网开发代理配置详解
  • C++ 力扣 704.二分查找 基础二分查找 题解 每日一题
  • Https之(四)国密GMTLS
  • 【Redis#8】Redis 数据结构 -- Zset 类型
  • 改造thinkphp6的命令行工具和分批次导出大量数据
  • GTCB:引领金融革命,打造数字经济时代标杆
  • 【js】加密库sha.js 严重漏洞速查
  • UTXO 模型及扩展模型
  • 香港数字资产交易市场蓬勃发展,监管与创新并驾齐驱
  • 完整实验命令解析:从集群搭建到负载均衡配置(2)
  • 记录使用ruoyi-flowable开发部署中出现的问题以及解决方法(二)
  • 电脑开机显示器不亮
  • 智能安防:以AI重塑安全新边界
  • 欧盟《人工智能法案》生效一年主要实施进展概览(一)
  • docker-runc not installed on system
  • 【科研绘图系列】R语言在海洋生态学数据可视化中的应用:以浮游植物叶绿素和初级生产力为例
  • Kafka 4.0 兼容性矩阵解读、升级顺序与降级边界
  • [特殊字符]论一个 bug 如何经过千难万险占领线上
  • 大数据毕业设计选题推荐-基于大数据的城镇居民食品消费量数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
  • electron应用开发:命令npm install electron的执行逻辑
  • 搜狗拼音输入法的一个bug
  • 解锁Java分布式魔法:CAP与BASE的奇幻冒险
  • 如何安装 mysql-installer-community-8.0.21.0.tar.gz(Linux 详细教程附安装包下载)​
  • 配置ipv6
  • UE5蓝图接口的创建和使用方法
  • 【C语言强化训练16天】--从基础到进阶的蜕变之旅:Day14
  • 在 Ubuntu 系统上安装 MySQL
  • KDMS V4 重磅升级,智能迁移赋能国产化替代!
  • Ubuntu下MySQL、MongoDB与Redis:从安装到协同的完整指南