当前位置: 首页 > news >正文

大模型学习3

模型压缩

        深度学习(Deep Learning)因其计算复杂度或参数冗余,在一些场景和设备上限制了相 应的模型部署,需要借助模型压缩、优化加速、异构计算等方法突破瓶颈。

        模型压缩算法能够有效降低参数冗余,从而减少存储占用、通信带宽和计算复杂度,有助 于深度学习的应用部署,具体可划分为如下几种方法(后续重点介绍剪枝与量化):

主要的模型压缩技术

1. 模型量化(Quantization)

  • 做法:降低数值精度(如FP32 → INT8)

  • 效果:模型体积减小75%,推理速度提升2-4倍

  • 比喻:把高清电影转为标清,画质稍降但文件小很多

2. 模型剪枝(Pruning)

  • 做法:移除不重要的权重连接

  • 效果:减少计算量,提升速度

  • 比喻:给大树修剪枝叶,去掉冗余部分,保留主干

3. 知识蒸馏(Knowledge Distillation)

  • 做法:用大模型(教师)训练小模型(学生)

  • 效果:小模型获得大模型的能力

  • 比喻:教授把毕生知识精华传授给学生

压缩技术的效果对比

技术压缩率速度提升精度损失难度
量化2-4倍2-4倍
剪枝2-10倍1.5-3倍
蒸馏10-100倍3-10倍

为什么需要模型压缩?

部署需求

  • 移动端:手机APP运行AI功能

  • 边缘设备:摄像头、音箱等IoT设备

  • Web端:浏览器直接运行模型

成本考虑

  • 存储成本:模型从几GB降到几百MB

  • 计算成本:推理速度提升,服务器费用降低

  • 功耗成本:更适合电池供电设备


量化

混合精度

混合精度(Mixed precision)在模型中使用 FP32 和 FP16 。 FP16 减少了一半的内存 大小,但有些参数或操作符必须采用 FP32 格式才能保持准确度。

混合精度训练:
模型内部在存储的时候,参数分为两部分:正在参与训练的参数和没有参与训练的参数。
为了节约显存,没有参与训练计算的参数以FP16表示以降低显存占用率。
而正在参与训练计算的参数为了保证计算结果的准确性,以FP32表示。
这就达成了,虽然模型是16位的模型,但是训练计算过程跟32位是一样的。

量化

        工业界最终选择了 INT8 量化—— FP32 在推理(inference)期间被 INT8 取代(其实现阶段很多模型会在推理的时候把8位的参数,反量化到32位以保证模型精度),而训练时 (training)仍然是 FP32(以提升训练精度)。所以量化和反量化会贯穿模型的训练和推理过程。

训练过程:在模型训练时,模型本来是32位的,在参与训练的过程中,32位的一部分参数(目前没有参与计算或者相对模型影响不大参数)会被量化到8位;而正在参与计算或者核心参数仍是32位参与计算。

推理过程:模型参数在保存时,也是分为两部分。少部分核心参数还是32或16位的,但大部分参数就是量化过的8或4位。

其实量化这样设计的目的很简单,就是降低模型算力依赖的前提下,尽可能的提高模型的精度


http://www.dtcms.com/a/582061.html

相关文章:

  • 武警部队电子沙盘和数字沙盘的地磁方位指示器系统
  • Coze搭建企业客服智能体
  • BI需求分析的双层陷阱
  • 鸿蒙三方库httpclient使用
  • 网站开发的发展历史及趋势做网络平台的网站
  • 私有云盘远程用!FileRise+cpolar 让异地存取文件超简单
  • 借助Dify工作流构建AI测试智能体,效率提升可达500%
  • php网站建设与管理游客可进的直播
  • 5种有效增加网站流量沈阳企业网站制作公司
  • mak/Makefile和进度条
  • ip数据报传输过程梳理
  • 2.1 NLP 核心概念回顾:从词袋到 Transformer
  • 做网站的公司 经营范围2017年到2018年建设的网站
  • 东莞网站建设 光龙wordpress 目录 模板下载
  • 时序数据库系列(六):物联网监控系统实战
  • 迁移学习基础知识——迁移学习的问题形式化
  • java基础-ArrayList集合
  • 做网站运营优质做网站价格
  • 【双机位A卷】华为OD笔试之【哈希表】双机位A-采购订单【Py/Java/C++/C/JS/Go六种语言】【欧弟算法】全网注释最详细分类最全的华子OD真题题解
  • 第十章、GPT1:Improving Language Understanding by Generative Pre-Training(代码部分)
  • 2025全球生成式人工智能AIGC产业全景与行业应用研究报告|附900+份报告PDF、数据、可视化模板汇总下载
  • 网站广告销售怎们做网站开发确认书
  • 常见的模型性能评估图表案例解读
  • 网站推广服务网站连锁金融网站怎么做
  • 从协议中成长
  • ⚡️2025-11-07GitHub日榜Top5|AI舆情分析系统
  • 云建站淘宝客网页设计教程 表单
  • 石河子农八师建设兵团社保网站餐饮营销方案
  • P1012 [NOIP 1998 提高组] 拼数
  • 第四阶段C#通讯开发-9:网络协议Modbus下的TCP与UDP