当前位置: 首页 > news >正文

pytorch 50 大模型导出的onnx模型优化尝试

本博文基于Native-LLM-for-Android项目代码实现,具体做了以下操作:
1、尝试并实现将模型结构与权重零散的onnx模型进行合并,通过该操作实现了模型加载速度提升,大约提升了3倍
2、突破了onnxconverter_common 无法将llm模型导出为fp16的操作,基于该操作后将10g的权重降低到5.6g,但推理速度反而下降了
3、实现了fp32格式的onnx模型转换为int8模型,该操作后模型权重只占3g,但推理结果完全不准。

1、模型权重合并与slim操作

1.1 代码操作

先注释掉 onnxslim库中utils文件中的第507行
在这里插入图片描述

然后执行以下代码(关于路径里面的fp16是博主打错字了)

import os
from onnxslim import slim

# Path
http://www.dtcms.com/a/59509.html

相关文章:

  • linux环保监测4G边缘网关:环境数据的可靠传输者
  • 在基于Arm架构的华为鲲鹏服务器上,针对openEuler 20.03 LTS操作系统, 安装Ansible 和MySQL
  • 洛谷每日1题-------Day15__P1307 [NOIP 2011 普及组] 数字反转
  • EasyCVR平台赋能农业产业园:AIoT驱动的视频监控与大数据分析解决方案
  • 订单支付系统如何做到一致性
  • 自动控制原理【知识点总结、复习笔记】-2
  • OEM SQL Details and Session Details 5s 或者parallel 才会在sql monitor显示
  • 【Recon】CTF Web类题目主要类型
  • 【GPT入门】第1课准备环境
  • c语言笔记 数组指针
  • 英语开口说(先开口,再完善)——主动牺牲学习成本高昂的语法规则收益,来最大程度满足即刻对话交流需求
  • 高效数据分析实战指南:Python零基础入门
  • Unity开发时,visual studio编辑器中文注释的解决办法
  • 13.C语言指针的易错点
  • 蓝桥杯刷题周计划(第一周)
  • 【 <一> 炼丹初探:JavaWeb 的起源与基础】之 JSP 标签库:自定义标签的开发与应用
  • 4个 Vue 路由实现的过程
  • Unity大型游戏开发全流程指南
  • 3.9[A]csd
  • Gazebo 启动时候配置物体
  • llama.cpp编译
  • 任务11:路由器配置与静态路由配置
  • Web网页制作(静态网页):千年之恋
  • INFINI Labs 产品更新 | Easysearch 增加异步搜索等新特性
  • nlp培训重点-5
  • 【Python】Hydra 用法详解
  • web—HTML
  • 【Java篇】数据类型与变量:窥见程序的天地万象
  • wireshark点击快捷无法打开
  • 基于python大数据的招聘数据可视化与推荐系统