当前位置: 首页 > wzjs >正文

合优做网站需要多少钱网站关键词优化代理

合优做网站需要多少钱,网站关键词优化代理,阿里巴巴网站建设规划,现在的网站是用什么软件做的LoRA 背景 神经网络包含很多全连接层(线性层),其借助于矩阵乘法得以实现,然而,很多全连接层的权重矩阵都是满秩的。作者通过前人的一些工作发现当针对特定任务进行微调后,模型中权重矩阵其实具有很低的本征秩(intrinsic rank),因此,论文的作者认为权重更新的那部分…

LoRA

背景

神经网络包含很多全连接层(线性层),其借助于矩阵乘法得以实现,然而,很多全连接层的权重矩阵都是满秩的。作者通过前人的一些工作发现当针对特定任务进行微调后,模型中权重矩阵其实具有很低的本征秩(intrinsic rank),因此,论文的作者认为权重更新的那部分参数矩阵尽管随机投影到较小的子空间,仍然可以有效的学习,可以理解为针对特定的下游任务这些权重矩阵就不要求满秩。

技术原理

LoRA(论文:LoRA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS),该方法的核心思想就是通过低秩分解来模拟参数的改变量,从而以极小的参数量来实现大模型的间接训练。

在涉及到矩阵相乘的模块,在原始的PLM旁边增加一个新的通路,通过前后两个矩阵A,B相乘,第一个矩阵A负责降维,第二个矩阵B负责升维,中间层维度为r,从而来模拟所谓的本征秩(intrinsic rank)。

可训练层维度和预训练模型层维度一致为d,先将维度d通过全连接层降维至r,再从r通过全连接层映射回d维度,其中,r<<d,r是矩阵的秩,这样矩阵计算就从d x d变为d x r + r x d,参数量减少很多。

在下游任务训练时,固定模型的其他参数,只优化新增的两个矩阵的权重参数,将PLM跟新增的通路两部分的结果加起来作为最终的结果(两边通路的输入跟输出维度是一致的),即h=Wx+BAx。第一个矩阵的A的权重参数会通过高斯函数初始化,而第二个矩阵的B的权重参数则会初始化为零矩阵,这样能保证训练开始时新增的通路BA=0从而对模型结果没有影响。

在推理时,将左右两部分的结果加到一起即可,h=Wx+BAx=(W+BA)x,所以只要将训练完成的矩阵乘积BA跟原本的权重矩阵W加到一起作为新权重参数替换原本PLM的W即可,对于推理来说,不会增加额外的计算资源。

此外,Transformer的权重矩阵包括Attention模块里用于计算q

http://www.dtcms.com/wzjs/477294.html

相关文章:

  • 做网站大概费用天津百度seo推广
  • 国外哪个网站可以做外贸比较好百度一下一下你就知道
  • e4a怎么做网站app如何在百度发布信息推广
  • 培训网络设计工程师宁波seo推广
  • 做网站代理赌博怎么谈奶茶店营销软文
  • wordpress ecshop重庆seo网站
  • 如何做公司网站100个成功营销案例
  • 免费建网站程序流量神器
  • 铁岭网站建设公司网站大全
  • 网站建设资料清单百度搜索排名规则
  • wordpress网站导航seo对网络推广的作用是什么?
  • 泗阳做网站公司企业网站seo推广方案
  • 专门做特卖的网站在线外链工具
  • 重庆企业网站排名优化域名注册服务网站
  • 网站源代码 php专业网络推广公司排名
  • 怎样做好公司网站如何建立个人网址
  • 网站建设流程中哪些部分比较重要今日国内新闻重大事件
  • 深圳市高端网站建设深圳网站优化培训
  • 做网站 指导卢松松外链工具
  • 南通做网站推广的公司天眼查询个人
  • 金华市开发区人才网seo技术中心
  • 免费h5制作app平台网站关键词优化代理
  • 怎么看网站做没做推广创建个人网站的流程
  • 网站功能设计讲解深圳网站建设推广优化公司
  • 17网站一起做网店广常见的网站推广方法
  • 重庆网站建设是什么成都seo技术
  • 住房城乡建设部网站诚信平台互联网搜索引擎
  • 交通部的建设标准网站关键词排名怎么上首页
  • 做网站 需求seo顾问赚钱吗
  • 四川网站建设套餐seo专业培训课程