当前位置: 首页 > wzjs >正文

网站建设检查整改情况报告最新军事战争新闻

网站建设检查整改情况报告,最新军事战争新闻,购物帮–做特惠的导购网站,wordpress 静态 弊端在这篇文章中想和大家分享什么是量化?为什么要量化?以及如何实现量化?通过这三个基本问题,我们不仅可以全面了解量化的内涵和外延,还能更清晰地认识到它在实践中的重要性和应用价值。 一、什么是量化呢? 大…

        在这篇文章中想和大家分享什么是量化?为什么要量化?以及如何实现量化?通过这三个基本问题,我们不仅可以全面了解量化的内涵和外延,还能更清晰地认识到它在实践中的重要性和应用价值。

一、什么是量化呢?

        大语言模型的参数通常以高精度浮点数存储,这导致模型推理需要大量计算资源。 量化技术通过将高精度数据类型存储的参数转换为低精度数据类型存储。

        浮点数一般由3部分组成:符号位 sign指数位 exponent尾数位 fraction。指数位越大,可表示的数字范围越大。尾数位越大、数字的精度越高。

【注】BF16相比FP16,区别在于指数位BF16是8bit,FP16是5bit。换言之就是BF16用精度来换取更广的数值范围。 

        在大多数情况下,从32位降到16位的量化已经能够取得不错的效果。然而,为了进一步降低内存消耗,还可以将参数精度进一步降低到8位,甚至更低。

 

 

二、为什么对模型进行量化?

        神经网络模型的主要特点是数据参数量大、计算量大、内存占用大,以及模型精度高。然而,这些特点也使得模型在实际应用中面临巨大的计算和存储压力。为了应对这些挑战,量化技术被广泛应用,其核心是通过降低模型权重激活值的精度,从而减少计算复杂度和存储需求。在此基础上,量化的优点可以概括为以下三点:

  • 保持精度:量化虽然会降低模型的数值精度,但通过精心设计的量化方法(如对称量化、动态范围量化等),可以在尽量减少精度损失的同时,保留模型的核心表现能力。这使得量化后的模型仍然能够满足实际应用场景对精度的要求。
  • 加速计算:通过将参数和计算从高精度(如32位浮点数)降到低精度(如8位、16位整数),量化显著减少了计算所需的资源和时间。低精度运算能够充分利用硬件加速器的性能优势,从而提升模型推理的速度,大幅缩短响应时间。
  • 节省内存:量化能够显著降低模型的存储需求。例如,将模型的权重从32位浮点数压缩到8位整数,可以将内存占用减少到原来的四分之一。这不仅减轻了存储设备的压力,还使得模型可以部署到内存受限的设备(如移动设备、嵌入式设备)上,拓宽了模型的应用场景。

 这里引出一个问题:“为什么不直接训练一个小模型而是训练大模型后去做量化呢?

三、量化方法有哪些?

        量化可以根据何时量化分为:训练后量化(PTQ)训练感知量化(QAT),也可以根据量化参数的确定方式分为:静态量化动态量化

  • 训练后量化(Post-Training Quantization, PTQ):在模型训练完成后,直接对权重和激活值进行量化。这种方法简单高效,但可能导致精度下降。
  • 训练感知量化(Quantization-Aware Training, QAT):在训练过程中模拟量化操作,使模型逐步适应低精度表示,从而减小精度损失。

这部分不展开说太细,用一个表格来直观对比一下。

量化方法功能经典适用场景使用条件易用性精度损失预期收益
训练感知量化 (QAT)通过 Finetune 训练将模型量化误差降到最小对量化敏感的场景、模型,例如目标检测、分割、OCR 等有大量带标签数据极小减少存储空间4X,降低计算内存
静态离线量化 (PTQ Static)通过少量校准数据得到量化模型对量化不敏感的场景,例如图像分类任务有少量无标签数据较好较少减少存储空间4X,降低计算内存
动态离线量化 (PTQ Dynamic)仅量化模型的可学习权重模型体积大、访存开销大的模型,例如 BERT 模型一般一般减少存储空间2/4X,降低计算内存

        要充分理解量化的方法,还得再讲清楚量化的基本原理和关键步骤。量化的本质是将一个高精度的连续数值范围映射到一个低精度的离散数值范围。对于一个给定的向量或矩阵,量化可以表示为如下公式:

q = round(\frac{x-x_{min}}{s})

x_{quantized}=q\cdot s+x_{min}

  • x:原始高精度数值(如FP32)
  • x_minx_max:数值范围的最小值和最大值
  • s:缩放因子,用于将高精度数值映射到低精度范围
  • q:量化后的离散整数值(如INT8范围是 [-128, 127] 或 [0, 255])

        通过这种方法,原始的浮点数被映射到一个有限的整数表示范围,既减少了存储需求,也降低了计算复杂度。量化计算的关键在于确定量化的范围计算出合适的缩放因子。可以看下面这个图更好理解一些(图是线性映射量化)。

映射到INT8,左边是无饱和方式,右边是饱和方式

        线性量化又可以分成对称量化和非对称量化。这里我没有谈到非线性量化,大家感兴趣可以自己去看看论文。

左边是对称量化,右边是非对称量化

补充一个点,反量化是个啥?

  • 量化:将浮点数值通过缩放因子和偏移量(x_min)映射到整数范围。
  • 反量化:在推理时,将量化整数还原为近似的浮点数,以恢复部分精度。

最后,给一个实际llamafactory文档中有关量化技术的说明,用来拓展阅读:

LLaMa Factory Quantizationhttps://llamafactory.readthedocs.io/zh-cn/latest/advanced/quantization.html

http://www.dtcms.com/wzjs/787889.html

相关文章:

  • 建网站平台 优帮云aso推广平台
  • 网站代运营服务建网页用什么软件
  • js获取网站广告点击量怎么做注册公司有什么风险吗
  • wordpress linux 建站做旅游海报的软件或是网站
  • 建设银行东莞招聘网站长沙制作公园仿竹围栏报价
  • 网站建设合约百度关键词分析
  • 深圳建筑业网站建设在线制作图片及图片处理
  • 钦州做网站的公司中山网站的建设
  • 网页 代码怎么做网站推广优化方案
  • 建设大厦网站局门户网站建设的目标
  • 网站建设与网页制作招聘常德网站建设全域云
  • 江苏靖江苏源建设有限公司网站有好看图片的软件网站模板
  • 网站开发需求文档范文营销软件加盟
  • 老师问我做网站用到什么创新技术宿迁百度seo
  • 重庆住房城乡建设厅官方网站网站建设属于什么
  • 新乡网站建设价格怎样做宣传网站
  • 杭州网站免费制作南昌专业网站建设首页排名
  • 怎么添加网站背景音乐网站前段打不开 后台也进不去
  • 指定网站怎么设置路由器只访问泰安人才招聘网最新招聘2023
  • 英文网站建设官网网站开发宣传图
  • 中国能建设计公司网站企业主体负责人和网站负责人
  • 深圳设计网站速成班全网营销公司排名前十
  • 绿色大气网站模板泰安58路
  • 网站服务器连接被重置网站制作还花钱
  • 攀枝花建设工程质量监督站投诉网站在线购物网站功能模块
  • 做网站一年网络推广是什么意思
  • 做网站是哪个专业企业网站的技术维护内容主要包括
  • 深圳官方网站新闻网站建设捌金手指专业7
  • 益阳房产网站建设jquery电子商务网站模板
  • 简单 手机 网站 源码下载平面网页设计规范