H20 性能表现之 Kimi-K2
前面分别介绍了 Qwen3-Coder-480B, Qwen3-235B, GLM-4.5 在H20机器上的性能表现(详情请见文末文章列表)。今天,给大家分享 Kimi-K2 的表现,这可是一个1T大小的模型,说人话就是有1万亿个参数,拿给所有地球人平分,人均也有150个,是迄今为止,我测试过的最大的模型。
测试环境一如既往,同样是在141G的H20八卡机上使用VLLM 0.10版本进行推理。废话少说,先来看第一个案例,使用K2来做代码编写。
如上所示,单用户吐吞率约43.5 token/s,时延也仅0.18秒,不算差,但是,注意,随着并发用户的增加,时延上升明显,当并发用户达到50时,时延也达到了10秒,而此时的吞吐率仅有16 token/s。
看到如上的数据,不说大家也猜到了,知识库应用的性能应该更差。果不其然,如下:
当并发用户数达到50时,时延已经高达22秒,几乎是 DeepSeek V3 的两倍,而吞吐率也仅有13.7 token/s而已,对比 DeepSeek V3 略高一点,远不如其他的几个大模型。(果然是1T的大模型)
如欲了解上述的几个大模型的性能,请参考如下文章。
H20性能表现之GLM-4.5
H20性能表现之Qwen3-235B
H20性能表现之Qwen3-Coder-480B