当前位置: 首页 > wzjs >正文

无锡网站建设公司营销策划与运营

无锡网站建设公司,营销策划与运营,专业企业建站系统,web站点优化本文基于百度昆仑第二代硬件 前提 当前百度硬件tensor core支持的输入:int16, int8, bfp16 当前百度硬件tensor core支持的计算方式: int16, fp16,int8 常见的LLM大模型激活类型:fp16,bfp16 c…

本文基于百度昆仑第二代硬件

前提

当前百度硬件tensor core支持的输入:int16, int8, bfp16
当前百度硬件tensor core支持的计算方式: int16, fp16,int8
常见的LLM大模型激活类型:fp16,bfp16
cache类型:fp16, bfp16,int8,int4

量化

这里列举一下当前常用的方式以及量化方法

激活cache计算方式
类型1fp16fp16量化到int16,然后做int16*int16的计算,输出反量化到fp16
类型2fp16int8输入量化到int16(实为int8 * 2),与cache 做两次计算,最后输出反量化到fp16

这里主要讨论一下cache 的量化方式:

  1. 当用类型1时,cache为fp16,此时需要量化到int16,此时需要一个per cache的 max/scale值来进行量化。(计算量 cache len)
    这里可以做一个优化,保存一个per cache 的max值,每次插入数据时更新per cache max值。(计算量 1)
    然而,当遇到动态插入情况时,如下图图2,Q4结束了,Q6插入,但这时Q4的max值还在cache max值中,这里有一个解决版本,保存per batch 的max,当某个batch 结束了,置空该值,然后在送入attention算子之前提前更新per cache max值 (计算量 batch)
    在这里插入图片描述

  2. 当用类型2时,输入时int8,主要涉及到的是反量化,用到了静态量化方式。
    常见的静态量化为:per channel,百度采用per head量化,(seqlen, head_num, head_dim)在head_num维度做量化。

题外

当然这些量化方式对硬件来说不需要关注,硬件只需要知道这一批数据max值是多少,量化还是反量化,输入输出类型是啥。怎么用就属于算子层实现,
例如:per head量化方式

for (int i = 0; i < seqlen; i++) {for (int j = 0; j < head_num; j++) {float scale = head_num_sacle[j];for (int k = 0; k < head_dim; k++) {dequant_or_quant(x, y, scale);}}
}
http://www.dtcms.com/wzjs/274556.html

相关文章:

  • 衢州网站公司什么是网络营销战略
  • 做公司+网站建设价格站长工具一区
  • 南浔做网站市场调研的方法有哪些
  • 山东网站建设优化技术太极seo
  • 吉他网站怎么做免费营销软件网站
  • 免费b站推广网址有哪些全国新冠疫苗接种率
  • 贵阳网络科技有限公司泉州seo外包
  • 专业做网站制作的公司seo实战培训
  • 网站怎么做浏览量才会多充电宝关键词优化
  • 塘沽网络公司seo专业术语
  • 给公司建立网站东莞网站设计排行榜
  • 网站的外链接数济南头条今日新闻
  • 麻章手机网站建设建站软件可以不通过网络建设吗
  • 沧州做网站的seo变现培训
  • 高校网站建设前景做网络推广怎么找客户
  • 网站登记备案查询万网官网入口
  • 建造师培训网校seo排名技巧
  • 做网站备案什么意思游戏推广平台
  • 常州网站建设方案优化seo
  • 江阴网站制作找索引擎seo
  • 赌博假网站这么做点击器 百度网盘
  • 服务器做网站用什么环境好厦门网络推广哪家强
  • 贵阳市住房城乡建设局八大员网站优化快速排名教程
  • 垂直电商网站如何做内容运营百度在线
  • 动态网站建设教程线上推广网络公司
  • 如何做海外淘宝网站sem推广竞价托管
  • 静态网站开发工具有哪些中国站长站官网
  • 运城 网站 建设 招聘百度公司电话热线电话
  • paypal网站集成北京seo外包公司要靠谱的
  • 网站建设一般多少品牌seo如何优化