当前位置：首页 > news >正文

H20 性能表现之 Kimi-K2

news 2025/8/28 11:52:46

前面分别介绍了 Qwen3-Coder-480B, Qwen3-235B, GLM-4.5 在H20机器上的性能表现（详情请见文末文章列表）。今天，给大家分享 Kimi-K2 的表现，这可是一个1T大小的模型，说人话就是有1万亿个参数，拿给所有地球人平分，人均也有150个，是迄今为止，我测试过的最大的模型。

测试环境一如既往，同样是在141G的H20八卡机上使用VLLM 0.10版本进行推理。废话少说，先来看第一个案例，使用K2来做代码编写。

如上所示，单用户吐吞率约43.5 token/s，时延也仅0.18秒，不算差，但是，注意，随着并发用户的增加，时延上升明显，当并发用户达到50时，时延也达到了10秒，而此时的吞吐率仅有16 token/s。

看到如上的数据，不说大家也猜到了，知识库应用的性能应该更差。果不其然，如下：

当并发用户数达到50时，时延已经高达22秒，几乎是 DeepSeek V3 的两倍，而吞吐率也仅有13.7 token/s而已，对比 DeepSeek V3 略高一点，远不如其他的几个大模型。（果然是1T的大模型）

如欲了解上述的几个大模型的性能，请参考如下文章。

H20性能表现之GLM-4.5

H20性能表现之Qwen3-235B

H20性能表现之Qwen3-Coder-480B

http://www.dtcms.com/a/354091.html

相关文章：

【git】：gitee项目管理vs2019

装饰器进阶与设计模式

Linux入门教程第十五章 Linux 系统调优工具

【工具篇】github/huggingface 镜像源总结

嵌入式系统学习Day24(线程)

Custom SRP - Shadow Masks

Axure：如何将SVG转换为形状

leetcode 155 官方golang标准答案错误

Java Lambda 处理日期时间根据区间找出区间内集合

Linux程序与进程：核心概念与管理全解析

Class45循环神经网络RNN

“互联网 +”时代下开源 AI 大模型 AI 智能名片 S2B2C 商城小程序：行业变革与未来展望

基于 Ultralytics YOLO11与 TrackZone 的驱动的高效区域目标跟踪方案实践

Python Imaging Library (PIL) 全面指南：PIL基础入门-Python图像处理实战

多版本兼容的golang客服系统

稀土：从“稀有”到“命脉”的科技核心

通过概率正 - 未标记网络从医学图像的特定感兴趣区域中学习|文献速递-深度学习人工智能医疗图像

【底层机制】thread_local 变量的初始化时机和生命周期

Spring Retry Spring 生态系统优雅的重试组件

浏览器网页路径扫描器(脚本)

SQL优化：SQL模拟Split二维数组

Linux 基础开发工具

django-redis 使用类实现和使用

React（面试）

JUC之异步编程理论总结

实现基于数据库 flag 状态的消息消费控制

【docker】P1 虚拟化与容器化

全球协作无障碍：cpolar+Nextcloud实现跨国文件共享

通过远程桌面横向移动（破解凭证）

【51单片机】【protues仿真】基于51单片机出租车计价器系统