当前位置: 首页 > news >正文

pytorch 50 大模型导出的onnx模型优化尝试

本博文基于Native-LLM-for-Android项目代码实现,具体做了以下操作:
1、尝试并实现将模型结构与权重零散的onnx模型进行合并,通过该操作实现了模型加载速度提升,大约提升了3倍
2、突破了onnxconverter_common 无法将llm模型导出为fp16的操作,基于该操作后将10g的权重降低到5.6g,但推理速度反而下降了
3、实现了fp32格式的onnx模型转换为int8模型,该操作后模型权重只占3g,但推理结果完全不准。

1、模型权重合并与slim操作

1.1 代码操作

先注释掉 onnxslim库中utils文件中的第507行
在这里插入图片描述

然后执行以下代码(关于路径里面的fp16是博主打错字了)

import os
from onnxslim import slim

# Path

相关文章:

  • linux环保监测4G边缘网关:环境数据的可靠传输者
  • 在基于Arm架构的华为鲲鹏服务器上,针对openEuler 20.03 LTS操作系统, 安装Ansible 和MySQL
  • 洛谷每日1题-------Day15__P1307 [NOIP 2011 普及组] 数字反转
  • EasyCVR平台赋能农业产业园:AIoT驱动的视频监控与大数据分析解决方案
  • 订单支付系统如何做到一致性
  • 自动控制原理【知识点总结、复习笔记】-2
  • OEM SQL Details and Session Details 5s 或者parallel 才会在sql monitor显示
  • 【Recon】CTF Web类题目主要类型
  • 【GPT入门】第1课准备环境
  • c语言笔记 数组指针
  • 英语开口说(先开口,再完善)——主动牺牲学习成本高昂的语法规则收益,来最大程度满足即刻对话交流需求
  • 高效数据分析实战指南:Python零基础入门
  • Unity开发时,visual studio编辑器中文注释的解决办法
  • 13.C语言指针的易错点
  • 蓝桥杯刷题周计划(第一周)
  • 【 <一> 炼丹初探:JavaWeb 的起源与基础】之 JSP 标签库:自定义标签的开发与应用
  • 4个 Vue 路由实现的过程
  • Unity大型游戏开发全流程指南
  • 3.9[A]csd
  • Gazebo 启动时候配置物体
  • 这位中国电影早期的全能奇才,90年前唱响国歌
  • 上海肺科医院院长陈昶:临床中的痛点,正是新技术诞生的起点
  • 聘期三年已至:37岁香港青年叶家麟卸任三亚市旅游发展局局长
  • 人民日报大家谈:为基层减负,治在根子上减到点子上
  • 种植耐旱作物、启动备用水源,甘肃各地多举措应对旱情
  • 去年上海全市博物馆接待观众约4087万人次,同比增31.9%