在tensorrt engine中提高推理性能小记
定位性能瓶颈
trtexec --loadEngine=IFNetxx.trt --dumpProfile
–dumpProfile会定位出每一层的执行时间(总耗时、平均耗时、占比)
重写算子
经过第一部分的定位性能瓶颈,发现算子GridSample(计算光流)的耗时占比为40%,而且这个GridSample并不是官方的算子,因此需要重写
具体步骤
理解GridSample
编写Plugin C++/CUDA核心代码
C++文件结构示例:
GridSamplePlugin.h
GridSamplePlugin.cpp
GridSampleKernel.cu
GridSampleCreator.cpp
CMakeLists.txt