【工作日记】rapidocr解析工具内存溢出排查
1.写一个脚本对其进行连续调用
对接口进行调用
2.添加调试排查点
log mem
在调用ocr的过程中,内存有增量,但是却不会被gc.collect()回收
3.尝试各种内存释放方法
1.清除变量
2.复用ocr实例
3.垃圾回收主动触发
4.将pdf进行分片,按5或10进行分块处理,然后处理完重启ocr实例
然后发现paddle比onxunrun--那个要快很多,但是一开始就会占用400MB内存,然后随着页面输入,内存越来越大,直到OOM(内存溢出)
4后续
尝试下参考网上的其他rapidocr方案;然后看下堆栈信息啥的;或者重构下代码
涉及到内存底层啥的确实耗时间