当前位置: 首页 > news >正文

在tensorrt engine中提高推理性能小记

定位性能瓶颈

trtexec --loadEngine=IFNetxx.trt --dumpProfile

–dumpProfile会定位出每一层的执行时间(总耗时、平均耗时、占比)

重写算子

经过第一部分的定位性能瓶颈,发现算子GridSample(计算光流)的耗时占比为40%,而且这个GridSample并不是官方的算子,因此需要重写
具体步骤

理解GridSample

编写Plugin C++/CUDA核心代码

C++文件结构示例:
GridSamplePlugin.h
GridSamplePlugin.cpp
GridSampleKernel.cu
GridSampleCreator.cpp
CMakeLists.txt

实现TensorRT plugin 接口

编译.so并注册

替换ONNX中节点(可选)

构建TensorRT引擎

验证精度&性能

相关文章:

  • 网络安全防护:Session攻击
  • 【python深度学习】Day53对抗生成网络
  • Vue3 + TypeScript + Element Plus 设置表格行背景颜色
  • 第十七章 Linux之大数据定制篇——Shell编程
  • 【C语言】C语言发展历史、特点及其应用
  • SpringBoot源码解析(十二):@ConfigurationProperties配置绑定的底层转换
  • 树莓派智能小车红外避障实验指导书
  • DeepSeek介绍
  • 【Canvas与曲线】使用贝塞尔二次曲线实现平滑过渡的内旋拼合三角形
  • 人工智能学习13-Numpy-规律数组生成
  • Python训练营-Day31-文件的拆分和使用
  • JAVA实战开源项目:在线课程管理系统 (Vue+SpringBoot) 附源码
  • 【大模型分布式训练】多卡解决单卡训练内存不足的问题
  • 【算法】基于中位数和MAD鲁棒平均值计算算法
  • 全面指南:HTTPX - 下一代Python HTTP客户端
  • 【算法深练】二分答案:从「猜答案」到「精准求解」的解题思路
  • 【大厂机试题解法笔记】恢复数字序列
  • 《Gulp与SCSS:解构前端样式开发的底层逻辑与实战智慧》
  • 迁移数据库服务器和应用服务器步骤
  • Wiiu平台RetroArch全能模拟器美化整合包v1.18
  • 产品介绍网站如何做seo/友情链接交换
  • 寿光专业做网站的公司/如何做好一个品牌推广
  • 成都做网站建设的公司/网络营销百科
  • 五金加工东莞网站建设/安装百度一下
  • 招聘网站做鸭子的/百度快照怎么弄
  • 商旅平台app下载/seo优化招商