当前位置: 首页 > wzjs >正文

苏州网络推广seo首页关键词优化

苏州网络推广,seo首页关键词优化,wordpress 比特币,网站建设简洁本文基于百度昆仑第二代硬件 前提 当前百度硬件tensor core支持的输入:int16, int8, bfp16 当前百度硬件tensor core支持的计算方式: int16, fp16,int8 常见的LLM大模型激活类型:fp16,bfp16 c…

本文基于百度昆仑第二代硬件

前提

当前百度硬件tensor core支持的输入:int16, int8, bfp16
当前百度硬件tensor core支持的计算方式: int16, fp16,int8
常见的LLM大模型激活类型:fp16,bfp16
cache类型:fp16, bfp16,int8,int4

量化

这里列举一下当前常用的方式以及量化方法

激活cache计算方式
类型1fp16fp16量化到int16,然后做int16*int16的计算,输出反量化到fp16
类型2fp16int8输入量化到int16(实为int8 * 2),与cache 做两次计算,最后输出反量化到fp16

这里主要讨论一下cache 的量化方式:

  1. 当用类型1时,cache为fp16,此时需要量化到int16,此时需要一个per cache的 max/scale值来进行量化。(计算量 cache len)
    这里可以做一个优化,保存一个per cache 的max值,每次插入数据时更新per cache max值。(计算量 1)
    然而,当遇到动态插入情况时,如下图图2,Q4结束了,Q6插入,但这时Q4的max值还在cache max值中,这里有一个解决版本,保存per batch 的max,当某个batch 结束了,置空该值,然后在送入attention算子之前提前更新per cache max值 (计算量 batch)
    在这里插入图片描述

  2. 当用类型2时,输入时int8,主要涉及到的是反量化,用到了静态量化方式。
    常见的静态量化为:per channel,百度采用per head量化,(seqlen, head_num, head_dim)在head_num维度做量化。

题外

当然这些量化方式对硬件来说不需要关注,硬件只需要知道这一批数据max值是多少,量化还是反量化,输入输出类型是啥。怎么用就属于算子层实现,
例如:per head量化方式

for (int i = 0; i < seqlen; i++) {for (int j = 0; j < head_num; j++) {float scale = head_num_sacle[j];for (int k = 0; k < head_dim; k++) {dequant_or_quant(x, y, scale);}}
}
http://www.dtcms.com/wzjs/408376.html

相关文章:

  • 网站生成软件免费制作推广公司是做什么的
  • 郑州网站设计见效快外链发布论坛
  • wordpress ttfb多少毫秒推广优化方案
  • 2021年军事新闻广州:推动优化防控措施落地
  • 2345浏览器免费网站网站权重优化
  • 宝山区网站建设免费网站谁有靠谱的
  • 怎么查网站的关键词软文推广网
  • 展示型网站源码电商的推广方式有哪些
  • 做网站温州中国站长站
  • 两新支部网站建设如何做好网络营销推广
  • 陵水网站建设咨询营销外包公司
  • 适合夜间看的直播app大全seo关键词排名优化
  • 阿里云做的海外网站怎么样网站排名优化公司
  • python手机在线编程重庆排名seo公司
  • 自己的电脑做网站会收录吗资讯门户类网站有哪些
  • 扬中市新闻网站推广团队在哪里找
  • 网站使用特殊字体如何推广自己的网站
  • 做网站怎么才会被百度收录国外外链平台
  • 实木餐桌椅网站建设公司搜索排名竞价
  • 深圳网站开发怎么样seo和sem的区别与联系
  • apache网站拒绝访问网站页面优化包括
  • 中职示范校建设专题网站网络营销策划方案案例
  • 拨号服务器做网站nat123怎么做链接推广产品
  • 睢县网站制作公司百度排名工具
  • 京东的网站建设介绍南宁seo外包服务
  • 二手房网签合同在哪个网站做百度权重查询工具
  • 阿里云企业邮箱官网唐山seo优化
  • 个人网站可以直接做微信登陆吗宁波seo网络优化公司
  • 个人引擎网站什么做今日头条荆州新闻
  • 海盐网站建设大一html网页制作作业简单