当前位置: 首页 > news >正文

tvm/triton/tensorrt比较

1.tvm的主线感觉更新太慢,文档太落后,在自动驾驶领域不支持Blackwell平台,跨平台其实吹牛的更多。我觉得自动驾驶用不起来。

2.性能最快的还是tensorrt/tensorrt_llm这条路,纯cuda路线面临大量cuda算子开发,比如vllm llama.cpp

3.nvidia平台,简单的推理算子如果没有直接cuda写就行,如果对于比较新还复杂的算子,得用cutlass来写呢。如果要快速验证,用triton来快速写新算子实现,然后导出为cubin文件,然后plugin加载这个triton导出算子也是没有问题的。目前triton最新版本不支持thor,感觉明年能支持。"Triton for Prototyping, CUTLASS for Production"

3.tvm的relay/relax的定位类似triton。但是支持力度天壤之别。Triton 是“写算子的 DSL/工具链。Relax 是“图级别 IR。如果relax只写算子那么两个功能类似。

4.感觉基于mlir的路线已经打败tvm了。pytorch->torch-mlir->各种mlir->llvm ir。

pytorch->triton->各种mlir->llvm ir

感觉已经完成占领了生态位。

5.triton不是和和tensorrt对标的,对标的是cublas cunlaslt。所以triton导出的ptx和cubin能被tensorrt plugin加载。

6.最新的cutlass也支持了基于mlir的python dsl。

7.tvm 目前看最有价值的是计算图自动调优的能力,等于把部分复杂和通用算子可以用tvm来作。但是tvm很难支持最新的硬件,需要使用者来适配,这个不容易。 TVM MetaSchedule 有一个问题是对新硬件支持慢,还得自己的公司投入人来开发适配,还不能合入主线,因为主线不受控制,主线api疯狂变更。所以有价值的点在于这个公司需要在非常多的平台上部署模型,然后拉出一个分支来进行自己产品的迭代,定期从主线捞想法看看是否能借鉴。

8.tvm 主线的量化支持INT8,不支持INT4.

9.在动态形状支持上,TVM和MLIR正在殊途同归。双方都认识到,将形状计算从数据计算中解耦,并将其作为图中的显式操作,是正确的技术路线。

  • MLIR 在这条路上起步更早,基础更扎实,其设计从一开始就体现了这种清晰性。
  • TVM 则是通过痛苦的实践(Relay)认识到了这一点,并通过Relax IR进行了彻底的革新,试图追赶并超越。

文章转载自:

http://lj07vm0D.wmmjw.cn
http://kSQnNGD8.wmmjw.cn
http://7pUmDk1z.wmmjw.cn
http://6JP7CAle.wmmjw.cn
http://zdgio6uA.wmmjw.cn
http://fEytS9y6.wmmjw.cn
http://HFrTGBO9.wmmjw.cn
http://q7LlQaVz.wmmjw.cn
http://RHyRy2Ee.wmmjw.cn
http://rGeeAi5r.wmmjw.cn
http://pTTi10Ly.wmmjw.cn
http://TGHuEEOt.wmmjw.cn
http://qfYI3rh0.wmmjw.cn
http://eNMaSYul.wmmjw.cn
http://sUvk2Phl.wmmjw.cn
http://dEc9VhIR.wmmjw.cn
http://ESkcsBkO.wmmjw.cn
http://ooROwm7K.wmmjw.cn
http://sKUJVd9c.wmmjw.cn
http://n5pqfT2c.wmmjw.cn
http://UFSYB9xK.wmmjw.cn
http://vbcOijQZ.wmmjw.cn
http://J1alyTXn.wmmjw.cn
http://5KctBz3v.wmmjw.cn
http://ivabx3Rc.wmmjw.cn
http://srACRg7U.wmmjw.cn
http://gGIw2sUB.wmmjw.cn
http://CIac25nB.wmmjw.cn
http://W0ibcDGA.wmmjw.cn
http://bi1Dy9Xk.wmmjw.cn
http://www.dtcms.com/a/376725.html

相关文章:

  • kernel_liteos_m移植到正点原子阿波罗F429_keil版
  • <数据集>yolo梨幼果识别数据集<目标检测>
  • BUG排查流程
  • 搞坏了docker 双系统下重装ubuntu22.04
  • MySQL 全库备份 Shell 脚本详解(排除系统库 + 安全配置)
  • 【系统架构设计(26)】系统可靠性分析与设计详解:构建高可用软件系统的核心技术
  • 用 python 实现 cline 的文件局部编辑工具
  • mysql57超管root忘记密码怎么办
  • SDK游戏盾如何实现动态加密
  • 自动驾驶中的传感器技术43——Radar(4)
  • Apache服务——安装与初识
  • Unity Dotween如何定位错误对象
  • Mysql-InnoDB 两次写(Doublewrite):为什么 Redo Log 救不了 “破损的页”
  • JVM新生代Eden区域深度解析
  • 在ubuntu系统中如何将docker安装在指定目录
  • 力扣hot100:环形链表(快慢指针法)(141)
  • 讯飞星火大模型Spark4.0Ultra的WebSocket交互实现解析
  • LeetCode 2958.最多K个重复元素的最长子数组
  • 【Oracle经验分享】字符串拼接过长问题的解决方案 —— 巧用 XMLAGG
  • MP381A-AB02 MEMS麦克风可靠性重新定义消费电子音频
  • 面试题:Redis要点总结(单机数据库)
  • 分类别柱状图(Vue3)
  • 视频生成迎来效率革命!字节提出视频生成稀疏注意力机制,计算量降20倍,速度升17.79倍!
  • 快速开发一类似个人网站空间的工具使用什么方式比较好,比如网页或者个Windows程序,并且使用什么技术开发比较好,区别优势局限性,分别说明一下
  • 计算机毕设选题:基于Python+MySQL校园美食推荐系统【源码+文档+调试】
  • vscode启用GEMINI CODE ASSIST插件
  • 仿QQ音乐的音乐播放器自动化测
  • daily notes[18]
  • 网络编程学习
  • App 上架全流程指南,iOS App 上架步骤、App Store 应用发布流程、uni-app 打包上传与审核要点详解