当前位置: 首页 > wzjs >正文

专门做酒的网站有哪些短视频营销推广方案

专门做酒的网站有哪些,短视频营销推广方案,天元建设集团有限公司青岛,石家庄做网站哪家好BERT的模型架构 BERT: Bidirectional Encoder Representations from Transformers BERT这个名称直接反映了:它是一个基于Transformer编码器的双向表示模型。BERT通过堆叠多层编码器来构建深度模型。举例来说: BERT-Base:堆叠了12层Encoder&a…

BERT的模型架构

BERT: Bidirectional Encoder Representations from Transformers

BERT这个名称直接反映了:它是一个基于Transformer编码器双向表示模型。BERT通过堆叠多层编码器来构建深度模型。举例来说:

  • BERT-Base:堆叠了12层Encoder,12个注意力头,768维隐藏层,参数量约110M
  • BERT-Large:堆叠了24层Encoder,16个注意力头,1024维隐藏层,参数量约340M
    在这里插入图片描述

BERT的输入表示

BERT的输入表示是其独特之处,包含三部分:

  1. Token Embedding:词元嵌入,将输入的单词转换为向量表示
  2. Segment Embedding:段落嵌入,用于区分输入中的不同句子
  3. Position Embedding:位置嵌入,编码词元在序列中的位置信息

与原始Transformer使用三角函数计算的Position Encoding不同,BERT的Position Embedding是需要学习的参数。

BERT预训练方法

同时进行两项无监督任务的训练来学习语言,即:

  1. 掩码语言模型MLM
  2. 下一句预测NSP

接下来我们展开讲解两种任务

掩码语言模型(Masked Language Model, MLM)

即完形填空从而让大模型可以学到上下文。具体做法是(论文中并没讲述为何用这个比例,可能是因为这个比例效果更佳):

  1. 随机选择输入tokens中的15%
  2. 对于被选中的tokens:
    策略1- 80%的情况下,将其替换为特殊标记[MASK]
    策略2- 10%的情况下,将其替换为随机词
    策略3- 10%的情况下,保持不变

举例:我爱大语言模型
在这里插入图片描述

下一句预测(Next Sentence Prediction, NSP)

NSP任务要求模型判断两个给定句子是否为原文中的相邻句子。这可以让模型理解句子间的关系。是与不是,这也就是转为了二分类任务。


举例:我爱大语言模型
在这里插入图片描述

http://www.dtcms.com/wzjs/77355.html

相关文章:

  • 建设银行长沙招聘网站杭州做百度推广的公司
  • 企业站模板推广技巧
  • 锦州网站建设工作网络广告营销方案策划内容
  • 果洛wap网站建设seo价格是多少
  • 嘉兴模板建站软件徐州百度推广
  • 网站群建设进展情况汇报中国seo高手排行榜
  • dz网站的隐藏链接怎么删除推广网站软文
  • 商城网站建设分为几块网站建设方案设计书
  • 兖州网站开发怎么免费给自己建网站
  • 吉林省建设招标网站站长网站推广
  • 网站建设常规自适应最有效的线上推广方式
  • 友情链接是在网站后台做吗求网址
  • 林业局政务公开网站建设报告百度竞价推广账户优化
  • 平阴网站建设志鸿优化网
  • 建立网站要准备多少钱网络推广网站的方法
  • 合肥瑶海区天气吴中seo页面优化推广
  • wordpress 改语言烟台seo
  • 提供模板网站制作多少钱百度上做推广怎么做
  • 怎么做网站广告古董淘宝seo优化排名
  • 网站开发调研报告网络营销理论基础
  • 网站建设 中企动力 武汉香蕉和忘忧草对焦虑的影响
  • web博客网站开发手机版谷歌浏览器入口
  • 深圳市建设行业门户网站网站搜索引擎优化情况怎么写
  • 管理系统软件有哪些网站seo招聘
  • 设计个人网站的步骤南通做网站推广的公司
  • 绵阳做seo网站公司代运营一般收费
  • 网站后台怎么进入wordpress网络营销策略包括哪些
  • 企业网站制作公司合肥中国新闻网最新消息
  • 大连网站建设选网龙创量广告投放平台
  • 域名反查网站seo门户网站优化