当前位置: 首页 > news >正文

H20 性能表现之 Kimi-K2

前面分别介绍了 Qwen3-Coder-480B, Qwen3-235B, GLM-4.5 H20机器上的性能表现(详情请见文末文章列表)。今天,给大家分享 Kimi-K2 的表现,这可是一个1T大小的模型,说人话就是有1万亿个参数,拿给所有地球人平分,人均也有150个,是迄今为止,我测试过的最大的模型。

测试环境一如既往,同样是在141G的H20八卡机上使用VLLM 0.10版本进行推理。废话少说,先来看第一个案例,使用K2来做代码编写。

如上所示,单用户吐吞率约43.5 token/s,时延也仅0.18秒,不算差,但是,注意,随着并发用户的增加,时延上升明显,当并发用户达到50时,时延也达到了10秒,而此时的吞吐率仅有16 token/s

看到如上的数据,不说大家也猜到了,知识库应用的性能应该更差。果不其然,如下:

当并发用户数达到50时,时延已经高达22秒,几乎是 DeepSeek V3 的两倍,而吞吐率也仅有13.7 token/s而已,对比 DeepSeek V3 略高一点,远不如其他的几个大模型。(果然是1T的大模型)

如欲了解上述的几个大模型的性能,请参考如下文章。

H20性能表现之GLM-4.5

H20性能表现之Qwen3-235B

H20性能表现之Qwen3-Coder-480B

http://www.dtcms.com/a/354091.html

相关文章:

  • 【git】:gitee项目管理vs2019
  • 装饰器进阶与设计模式
  • Linux入门教程 第十五章 Linux 系统调优工具
  • 【工具篇】github/huggingface 镜像源总结
  • 嵌入式系统学习Day24(线程)
  • Custom SRP - Shadow Masks
  • Axure:如何将SVG转换为形状
  • leetcode 155 官方golang标准答案错误
  • Java Lambda 处理日期时间 根据区间找出区间内集合
  • Linux程序与进程:核心概念与管理全解析
  • Class45循环神经网络RNN
  • “互联网 +”时代下开源 AI 大模型 AI 智能名片 S2B2C 商城小程序:行业变革与未来展望
  • 基于 Ultralytics YOLO11与 TrackZone 的驱动的高效区域目标跟踪方案实践
  • Python Imaging Library (PIL) 全面指南:PIL基础入门-Python图像处理实战
  • 多版本兼容的golang客服系统
  • 稀土:从“稀有”到“命脉”的科技核心
  • 通过概率正 - 未标记网络从医学图像的特定感兴趣区域中学习|文献速递-深度学习人工智能医疗图像
  • 【底层机制】thread_local 变量的初始化时机和生命周期
  • Spring Retry Spring 生态系统优雅的重试组件
  • 浏览器网页路径扫描器(脚本)
  • SQL优化:SQL模拟Split二维数组
  • Linux 基础开发工具
  • django-redis 使用类实现和使用
  • React(面试)
  • JUC之异步编程理论总结
  • 实现基于数据库 flag 状态的消息消费控制
  • 【docker】P1 虚拟化与容器化
  • 全球协作无障碍:cpolar+Nextcloud实现跨国文件共享
  • 通过远程桌面横向移动(破解凭证)
  • 【51单片机】【protues仿真】 基于51单片机出租车计价器系统