当前位置: 首页 > wzjs >正文

app开发与网站建设网站建设网站建设的网络

app开发与网站建设,网站建设网站建设的网络,内蒙古住房和城乡建设厅官方网站,学ui设计需要要哪方面基础1. 背景 对于接触过AI模型的人来说,经常会听说一个词语模型量化,那什么是模型量化?为什么需要模型量化?有哪些常用的模型量化技术呢?模型量化有哪些挑战?本文将一一展开叙述。 2. 概念 模型量化是一种在…

1. 背景

对于接触过AI模型的人来说,经常会听说一个词语模型量化,那什么是模型量化?为什么需要模型量化?有哪些常用的模型量化技术呢?模型量化有哪些挑战?本文将一一展开叙述。

2. 概念

模型量化是一种在深度学习和机器学习领域中广泛应用的技术,旨在通过减少模型中数据的表示精度来降低模型的存储需求和计算成本,同时尽量保持模型的性能。简单的说就是将模型中的权重和激活值从较高精度的数据类型(如 32 位浮点数)转换为较低精度的数据类型(如 8 位整数)的过程。

3. 为什么要量化?

3.1 减少存储需求

模型权重大小的计算公式如下:

模型大小 = 参数量 x 每个参数所占字节数

以LLAMA 13B举例,在不同的精度下,模型大小如下:
在这里插入图片描述
从上图可以看到,当模型精度越小时模型权重也越小。因此量化有助于降低模型的大小,减少存储需求,存储包括磁盘和显存。

3.2 加速推理

在深度学习中,矩阵乘法和卷积等运算占据了大量的计算量。低精度数据类型(如 8 位整数)的计算在硬件上通常可以比高精度数据类型(如 32 位浮点数)更高效地完成。以整数运算为例,硬件可以同时处理多个整数运算,利用并行计算的优势,大大提高计算速度。因此在相同硬件上,可以更快速的计算出结果。
下图是NVIDIA Hopper架构的H100的架构图,在模型推理过程中,模型权重数值和激活值在TensorCore和显存之间存在频繁的数据交换。如果能减少数据交换的大小,便可以提升模型的推理效率。因为在当前的模型推理中,制约模型推理速度的最大因素是显存带宽而非算力本身。
综上所述,通过加快计算和减少显存和TensorCore数据交换均可以加速推理。
在这里插入图片描述

3.3 其他优势

由于量化模型需要更低的存储和更高效的计算,因此附带优势包括可以有效的节省硬件成本,降低功耗,利益在价格相对低廉的硬件上部署等等。

4. 量化技术

对称量化和非对称量化确实是量化技术中两种核心方法,它们通过不同的策略将高精度数据(如浮点数)映射到低精度表示(如整数),以优化存储和计算效率。在介绍对称量化和非对称量化前需要提两个概念,也就是量化的两个重要过程,一个是量化(Quantize),另一个是反量化(Dequantize),如下图所示:
在这里插入图片描述

4.1 对称量化

1.21, -1.31, 0.22
0.83, 2.11, -1.53
0.79, -0.54, 0.84
假设对上述矩阵进行INT8量化,按照如下步骤进行:

  • 确定原始矩阵中的最大绝对值:对于给定的矩阵,找到绝对值最大的元素。在此例子中,数据绝对值的最大值是2.11。
  • 计算缩放因子(scale):由于INT8对称量化的范围为[-127, 127],缩放因子为 max_abs / 127。这里,max_abs为2.11,因此 scale = 2.11 / 127 ≈ 0.016614。
  • 对每个元素进行量化:将原始矩阵中的每个元素除以缩放因子,然后将结果四舍五入到最近的整数。得到的数值即为INT8对称量化后的值,并且应确保结果在[-127, 127]范围内。由于最大值已被正确缩放为127,其他元素的结果不会超过范围。
  • 在需要进行反量化时,使用量化后的值乘以缩放因子.
    上述矩阵的数值量化后数值如下图所示:
    在这里插入图片描述
    量化和反量化示意图如下所示:
    在这里插入图片描述
    将输入X和权重W使用对称量化,对称量化结果如下:
    在这里插入图片描述

4.2 非对称量化

1.21, -1.31, 0.22
0.83, 2.11, -1.53
0.79, -0.54, 0.84
假设对上述矩阵进行UINT8非对称量化,按照如下步骤进行:

  • 确定最大值和最小值。在此例子中,最小值是-1.53,最大值是2.11。
  • 计算缩放因子(scale):scale = (max_value - min_value) /(255) ,缩放因子为 scale =(2.11 - (-1.53))/255=(3.64) /255≈0.0142745。
  • 对每个元素x进行量化:对于每个元素x,计算量化后的q=round( (x - (-1.53)) /scale ),等价于:q=round( (x +1.53) *70.05494505 )。
  • 在需要进行反量化时,使用量化后的值乘以缩放因子.
    上述矩阵的数值量化后数值如下图所示:
    在这里插入图片描述
    量化和反量化示意图:
    在这里插入图片描述
    将输入X和权重W使用非对称量化,非对称量化结果如下:
    在这里插入图片描述

4.3 对称量化和非对称量化对比

4.3.1 优势

在这里插入图片描述

4.3.1 总结

在这里插入图片描述

http://www.dtcms.com/wzjs/533688.html

相关文章:

  • 高清网站seo企业站点
  • 个人网站需要多大空间做网站密云
  • 长春做网站优化友情链接交换网
  • 石家庄大型网站建设网站建设的合同
  • 绿色风格的网站北京医疗网站建设
  • 贵阳市网站优化福鼎建设局网站首页
  • 货运网站建设深圳市建设注册中心网站
  • 安陆市建设局网站施工企业项目负责人现场带班时间
  • 网络推广岗位职责和任职要求百度seo培训班
  • html5炫酷的网站佛山本科网站建设
  • 做网站 用什么语言好做电影网站如何买版权
  • 网站建设与管理维护wordpress 导入
  • 网站建设用到什么带后台管理的网站模板
  • apache 做网站网站开发进度计划表
  • 可以做录音兼职的网站江苏手机网站建设
  • 公司网站维护如何上图广州市建设局网站
  • 外贸网站cms系统wordpress企业站主题免费
  • 开发网站要多少钱wordpress国内不使用方法
  • 百度爱采购推广一个月多少钱安阳网站seo
  • 北京营销型网站推广网站建设找好景科技
  • 律所网站建设国队男子接力赛建英文网站费用
  • 新手网站建设模板下载百度网盘资源免费搜索引擎入口
  • 如何优化网络延迟网站建设优化去哪学
  • thinkphp开发大型网站wordpress自豪的
  • 网站建设需要平台wordpress始终无法登录
  • 东莞公司网站建设营销型网站建设建三江廉政建设网站
  • 网站新媒体建设网站网域名查询
  • 网站关键字个数wordpress获取菜单
  • 教育培训网站有哪些宜昌平台网站建设
  • 网站制作常见问题 图片版权网站定制论文1500字左右