当前位置: 首页 > wzjs >正文

四个字网站 域名电商平面ui设计是什么

四个字网站 域名,电商平面ui设计是什么,wordpress根据字段判断,什么是论坛推广ModernBERT 是一系列最先进的encoder-only模型,全面超越了旧一代BERT模型,在各个方面都有所改进,支持8192的token长度(原始bert512),下游性能更好,处理速度也更快。 1.1 模型结构设计的优化 &a…

ModernBERT 是一系列最先进的encoder-only模型,全面超越了旧一代BERT模型,在各个方面都有所改进,支持8192的token长度(原始bert512),下游性能更好,处理速度也更快。

编码器结构

1.1 模型结构设计的优化

(a)架构的优化
Modern Transformer:

	(1)偏差项的禁用(bias terms),禁用所有线性层偏差项,除了解码器的最后一层线性层。禁用所有Layer Norms的偏差项。(将更多的计算资源节约至线性层)(2)位置编码的选择:采用旋转位置编码(Rotary positional embeddings,RoPE),而不是绝对位置编码。RoPE在长-短语境语言模型中有更好的表现。(3)归一化(Noemalization,有助于稳定训练)。采用预归一化模块(pre-normalization block)和标准层归一化(standard layer normalizaiton)。在embedding层后添加一个layerNorm,并移除第一个注意力层的第一个layerNorm。(4)激活函数。使用GeGLU激活函数,基于门控线性单元(Gated-LInear Units,GLU)对原始bert激活函数GeLU的改进。

(b)效率的优化

	(1)交替注意力机制。采用全局注意力和局部注意力交替堆叠,每个第三层采用全局注意力,其余层使用128个token长的滑动窗口的局部注意力。全局注意力每个token慧珠其它所有token,局部注意力token只关注当前滑动窗口中的token。(2)不再填充(unpadding)。在训练推理过程中均不对token进行填充补齐。将过短的token补齐存在浪费计算资源。modernbert移除padding,将小批量的所有sequence合并为一个sequence,将其作为一个batch处理。采用flash attention的可变长度注意力机制(jagged attention mask)和旋转位置编码实现。(3)flash attention。全局注意力使用flash attention v3,局部注意力使用flash attention v2.

训练出ModernBERT-base和ModernBERT-Large两个模型

layers参数量hidden sizeGLUexpansion
ModernBERT-base22层149M7682304
ModernBERT-Large28层395M23045248

1.2 训练

(a)数据处理

(1)数据。2万亿以英文为主的网络文档、代码和科学文献。
(2)分词器。采用现代的BPE分词器(OLMo),并保留原始bert的特殊标记(【CLS】、【SEP】等),词汇表大小50368,是64的倍数,并包含83个未使用的toekn以供下游任务应用。
(3)sequence packing的应用。解决未填充的数据中出现高方差。

(b)训练设置

(1)移除【下一句预测】预训练任务。
(2)采用StableAdamW优化器。对每个参数都进行学习率的调整。
(3)学习率的调整。采用Warmup-Stable-Decay。梯形调度经过短暂的LR热启动,然后保持一段时间的学习旅恒定,在进行短暂衰减。衰减采用1-sqrt衰减。
(4)batchsize。采用不固定的batchsize设置,确保不同batchsize有相同数量的更新步骤,可提高训练效率。从小批量逐渐增加至全局。
ModernBERT-base:将batchsize从768提升至4608(基于500亿个token)
ModernBERT-large:将batchsize从448提升至4928(基于100亿个token)
(5)权重的初始化和tiling(平铺)。采用Megetron初始化方法。
(6)文本长度的拓展。对1.7万亿tokens进行训练,序列长度为1024,RoPE参数为10000后,将全局注意力层的RoPE参数提升至160000,将Modernbert的上下文长度拓展到8192个token,并继续训练3000亿个tokens。

(c)下游任务的评估
与多个大语言模型在多个任务上进行性能对比,包括自然语言理解(NLU),文本检索(Single vector retrieval、Multi vector retrieval)、长上下文检索、Code Retrieval
github链接:https://github.com/AnswerDotAI/ModernBERT


文章转载自:

http://E1VcfqLb.fgkxj.cn
http://8oSdOZBW.fgkxj.cn
http://xe9Xow0U.fgkxj.cn
http://1jIqrn6p.fgkxj.cn
http://b46TWL3M.fgkxj.cn
http://gtiYtYJJ.fgkxj.cn
http://bHAMqfbp.fgkxj.cn
http://tJmZNExC.fgkxj.cn
http://vv2niDoB.fgkxj.cn
http://ZQ6IExuW.fgkxj.cn
http://Bw7IuQtp.fgkxj.cn
http://i1mXRvB8.fgkxj.cn
http://0QwtcGKJ.fgkxj.cn
http://bHV1woLP.fgkxj.cn
http://TPfFMw1c.fgkxj.cn
http://f8IdaaFL.fgkxj.cn
http://M4JZ35Io.fgkxj.cn
http://pes8AlS3.fgkxj.cn
http://QcxMY3tj.fgkxj.cn
http://YwyeOOXl.fgkxj.cn
http://ZaDVX5xv.fgkxj.cn
http://5FRBj8fC.fgkxj.cn
http://nVHzsCgc.fgkxj.cn
http://m1pzMzSb.fgkxj.cn
http://dw1Bnyp2.fgkxj.cn
http://8tgwdzJy.fgkxj.cn
http://5HlTALNx.fgkxj.cn
http://EEMlJVIo.fgkxj.cn
http://rtlHynMx.fgkxj.cn
http://eZnrJgKj.fgkxj.cn
http://www.dtcms.com/wzjs/624704.html

相关文章:

  • 怎么样制作自己的网站wordpress seo指南
  • 怎么向百度提交网站地图企业网站首页排版分析
  • 微信网站什么做wordpress 访客记录
  • 电脑有固定IP 做网站做会员卡的网站在线制作
  • 棕色网站模板文安做网站shijuewang
  • 推广发帖网站番禺做网站费用
  • 深圳北站网站建设做怎样的企业网站
  • 安平有做网站推广的吗php工程师对wordpress
  • 静态网站开发课程相关新闻apache 设置多个网站
  • 网站的js效果代码大全建设网站需要什么人员
  • 网站建设关键要做好哪些wordpress如何装修
  • 嘉定房产网站建设自己做外贸 建一个网站
  • 河津市城乡建设局网站wordpress站长地图
  • 什么网站能代做预算乔拓云智能建站官网
  • 虚拟主机手机网站谷歌浏览器网页
  • 微信编辑器做网站成都品牌设计公司
  • 中国最好的建站公司wordpress主题制作软件
  • -1网站建设搜索排行
  • 做外贸什么网站凡科网站建设套餐报价
  • 企业首次建设网站方案流程西安做网站 好运网络
  • 直播网站源码免费长沙优化网站价格
  • 重庆丰标建设网站网页浏览器电视版
  • 平面设计网站排行榜网站建设方案
  • 违规网站开发 开发者如何规避风险快速网站建设推荐
  • 网站建设考虑因素app开发网站
  • 果洛州wap网站建设公司泉州做网站的公司
  • 网站开发经理具备什么知识百度小说排行榜2020
  • 网站开发href使用本地链接怎么做百度网站
  • 网站建设scyiyou网页建设推荐
  • i5 7500网站开发wordpress生成的html