当前位置: 首页 > wzjs >正文

网站收录系统百度旗下的所有产品

网站收录系统,百度旗下的所有产品,免费主题wordpress,上海嘉定网站LoRA 背景 神经网络包含很多全连接层(线性层),其借助于矩阵乘法得以实现,然而,很多全连接层的权重矩阵都是满秩的。作者通过前人的一些工作发现当针对特定任务进行微调后,模型中权重矩阵其实具有很低的本征秩(intrinsic rank),因此,论文的作者认为权重更新的那部分…

LoRA

背景

神经网络包含很多全连接层(线性层),其借助于矩阵乘法得以实现,然而,很多全连接层的权重矩阵都是满秩的。作者通过前人的一些工作发现当针对特定任务进行微调后,模型中权重矩阵其实具有很低的本征秩(intrinsic rank),因此,论文的作者认为权重更新的那部分参数矩阵尽管随机投影到较小的子空间,仍然可以有效的学习,可以理解为针对特定的下游任务这些权重矩阵就不要求满秩。

技术原理

LoRA(论文:LoRA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS),该方法的核心思想就是通过低秩分解来模拟参数的改变量,从而以极小的参数量来实现大模型的间接训练。

在涉及到矩阵相乘的模块,在原始的PLM旁边增加一个新的通路,通过前后两个矩阵A,B相乘,第一个矩阵A负责降维,第二个矩阵B负责升维,中间层维度为r,从而来模拟所谓的本征秩(intrinsic rank)。

可训练层维度和预训练模型层维度一致为d,先将维度d通过全连接层降维至r,再从r通过全连接层映射回d维度,其中,r<<d,r是矩阵的秩,这样矩阵计算就从d x d变为d x r + r x d,参数量减少很多。

在下游任务训练时,固定模型的其他参数,只优化新增的两个矩阵的权重参数,将PLM跟新增的通路两部分的结果加起来作为最终的结果(两边通路的输入跟输出维度是一致的),即h=Wx+BAx。第一个矩阵的A的权重参数会通过高斯函数初始化,而第二个矩阵的B的权重参数则会初始化为零矩阵,这样能保证训练开始时新增的通路BA=0从而对模型结果没有影响。

在推理时,将左右两部分的结果加到一起即可,h=Wx+BAx=(W+BA)x,所以只要将训练完成的矩阵乘积BA跟原本的权重矩阵W加到一起作为新权重参数替换原本PLM的W即可,对于推理来说,不会增加额外的计算资源。

此外,Transformer的权重矩阵包括Attention模块里用于计算q

http://www.dtcms.com/wzjs/314811.html

相关文章:

  • html语言大型网站开发seo工具有哪些
  • 宁波网络营销策划公司漯河搜狗关键词优化排名软件
  • 企业建网站公司多少钱西安企业网站seo
  • 网站建站网站设计公司百度热词
  • 广州高端品牌网站建设哪家公司好seo文章范文
  • app小程序开发团队惠州seo代理
  • 许昌做网站公司报价网络营销活动策划方案模板
  • 小程序怎么推广引流班级优化大师
  • 购买空间网站哪个好三只松鼠网络营销案例分析
  • 潍坊建设网站公司电话免费培训课程
  • 网站地图怎么做百度网址大全设为主页
  • 宣讲家网站做四讲四有模范百度经验app
  • 网站备案号是什么意思在线培训
  • 外贸商城网站模板营销策略有哪些
  • 网站文章不收录的原因网站权重怎么提高
  • 深圳html5网站建设价格net的网站建设
  • 中国建设银行网站下载安装短信营销
  • 自己做电影网站需要的成本免费seo推广公司
  • 新工商名录企业应用平台济南网站seo优化
  • 淄博市网站开发企业网站注册域名的步骤
  • 网站优化网络哪个合肥seo好
  • wordpress+下载售卖给你一个网站seo如何做
  • 订餐网站开发方案seo线下培训班
  • 企业网站一般用什么程序做国外引流推广平台
  • 好的摄影网站西安关键词排名提升
  • 永康营销型网站建设网络电商推广方案
  • 国内做任务得数字货币的网站汕头网站设计公司
  • 公司做网站怎么样百度手机应用商店
  • asp与java做网站效果批量优化网站软件
  • 上海市人民政府门户网站百度app首页