当前位置: 首页 > wzjs >正文

专门做酒的网站有哪些湖南网站营销seo方案

专门做酒的网站有哪些,湖南网站营销seo方案,做一名网站编辑要具备什么资格,wordpress 香港主機BERT的模型架构 BERT: Bidirectional Encoder Representations from Transformers BERT这个名称直接反映了:它是一个基于Transformer编码器的双向表示模型。BERT通过堆叠多层编码器来构建深度模型。举例来说: BERT-Base:堆叠了12层Encoder&a…

BERT的模型架构

BERT: Bidirectional Encoder Representations from Transformers

BERT这个名称直接反映了:它是一个基于Transformer编码器双向表示模型。BERT通过堆叠多层编码器来构建深度模型。举例来说:

  • BERT-Base:堆叠了12层Encoder,12个注意力头,768维隐藏层,参数量约110M
  • BERT-Large:堆叠了24层Encoder,16个注意力头,1024维隐藏层,参数量约340M
    在这里插入图片描述

BERT的输入表示

BERT的输入表示是其独特之处,包含三部分:

  1. Token Embedding:词元嵌入,将输入的单词转换为向量表示
  2. Segment Embedding:段落嵌入,用于区分输入中的不同句子
  3. Position Embedding:位置嵌入,编码词元在序列中的位置信息

与原始Transformer使用三角函数计算的Position Encoding不同,BERT的Position Embedding是需要学习的参数。

BERT预训练方法

同时进行两项无监督任务的训练来学习语言,即:

  1. 掩码语言模型MLM
  2. 下一句预测NSP

接下来我们展开讲解两种任务

掩码语言模型(Masked Language Model, MLM)

即完形填空从而让大模型可以学到上下文。具体做法是(论文中并没讲述为何用这个比例,可能是因为这个比例效果更佳):

  1. 随机选择输入tokens中的15%
  2. 对于被选中的tokens:
    策略1- 80%的情况下,将其替换为特殊标记[MASK]
    策略2- 10%的情况下,将其替换为随机词
    策略3- 10%的情况下,保持不变

举例:我爱大语言模型
在这里插入图片描述

下一句预测(Next Sentence Prediction, NSP)

NSP任务要求模型判断两个给定句子是否为原文中的相邻句子。这可以让模型理解句子间的关系。是与不是,这也就是转为了二分类任务。


举例:我爱大语言模型
在这里插入图片描述

http://www.dtcms.com/wzjs/437026.html

相关文章:

  • wordpress调用 php文件上传seo搜狗排名点击
  • 上海地区网站开发公司求职seo
  • 在线设计自己的签名怎么进行网站关键词优化
  • 杭州网站建设icp备深圳市seo点击排名软件价格
  • 制作html网站模板企业建站都有什么网站
  • 包头手机网站制作做网络推广怎么找客户
  • 网站建设scyiyou销售怎么做
  • 网站的报价怎么做北京网站seo服务
  • 潍坊网站建设公司哪家好网络工程师培训机构排名
  • 校园网站素材廊坊关键词优化报价
  • 山西电力建设一公司网站苏州关键词优化怎样
  • 国有资产处网站建设软文投稿平台有哪些
  • 功能型网站有哪些windows10优化软件
  • html静态网站开发实验谷歌推广技巧
  • 网站外链怎么购买如何制作网页教程
  • 一般做海报的图片跟哪个网站下载济南做网站公司
  • 上海传媒公司有哪些seo查询系统源码
  • 长春高铁站网站快速收录技术
  • 南宁网站推广工具百度免费下载安装
  • 厦门网站建设 php百度教育app
  • seo做网站赚钱吗sem管理工具
  • 网站 怎么备案游戏推广工作好做吗
  • 江西赣州网站建设电商培训机构有哪些?哪家比较好
  • 懂做网站怎么赚钱做销售有什么技巧和方法
  • 网站备案客户资料百度推广客户端下载
  • 黑河北京网站建设舆情监测软件
  • 中文商城html网站模板百度交易平台官网
  • 网站开发都是用什么做的网址最全的浏览器
  • 外贸英文商城网站建设优化关键词是什么意思
  • 做自行车车队网站的名字大全培训心得简短50字