当前位置: 首页 > news >正文

BERT模型讲解

BERT的模型架构

BERT: Bidirectional Encoder Representations from Transformers

BERT这个名称直接反映了:它是一个基于Transformer编码器双向表示模型。BERT通过堆叠多层编码器来构建深度模型。举例来说:

  • BERT-Base:堆叠了12层Encoder,12个注意力头,768维隐藏层,参数量约110M
  • BERT-Large:堆叠了24层Encoder,16个注意力头,1024维隐藏层,参数量约340M
    在这里插入图片描述

BERT的输入表示

BERT的输入表示是其独特之处,包含三部分:

  1. Token Embedding:词元嵌入,将输入的单词转换为向量表示
  2. Segment Embedding:段落嵌入,用于区分输入中的不同句子
  3. Position Embedding:位置嵌入,编码词元在序列中的位置信息

与原始Transformer使用三角函数计算的Position Encoding不同,BERT的Position Embedding是需要学习的参数。

BERT预训练方法

同时进行两项无监督任务的训练来学习语言,即:

  1. 掩码语言模型MLM
  2. 下一句预测NSP

接下来我们展开讲解两种任务

掩码语言模型(Masked Language Model, MLM)

即完形填空从而让大模型可以学到上下文。具体做法是(论文中并没讲述为何用这个比例,可能是因为这个比例效果更佳):

  1. 随机选择输入tokens中的15%
  2. 对于被选中的tokens:
    策略1- 80%的情况下,将其替换为特殊标记[MASK]
    策略2- 10%的情况下,将其替换为随机词
    策略3- 10%的情况下,保持不变

举例:我爱大语言模型
在这里插入图片描述

下一句预测(Next Sentence Prediction, NSP)

NSP任务要求模型判断两个给定句子是否为原文中的相邻句子。这可以让模型理解句子间的关系。是与不是,这也就是转为了二分类任务。


举例:我爱大语言模型
在这里插入图片描述

相关文章:

  • AI汽车时代的全面赋能者:德赛西威全栈能力再升级
  • 【Python】超全常用 conda 命令整理
  • C++中static关键字详解:不同情况下的使用方式
  • 浏览器节能机制导致Websocket断连的坑
  • CentOS 7 系统下安装 OpenSSL 1.0.2k 依赖问题的处理
  • [sklearn] 特征工程
  • 支付宝沙盒模式商家转账经常出现 响应异常: 解包错误
  • 嵌入式裸机模块——软定时器
  • 数据结构-堆
  • AWS之数据分析类产品
  • Mac 3大好用的复制粘贴管理工具对比
  • Android RxJava框架分析:它的执行流程是如何的?它的线程是如何切换的?如何自定义RxJava操作符?
  • 第十七节:图像梯度与边缘检测-Sobel 算子
  • Uskin阵列式三轴力触觉传感器:驱动机器人智能的触觉数据专家
  • 深入理解 Java 代理模式:从基础到实战​
  • MiM: Mask in Mask Self-SupervisedPre-Training for 3D Medical Image Analysis
  • Docker宿主机IP获取
  • 智慧工会服务平台建设方案Word(23页)
  • 机器学习-无量纲化与特征降维(一)
  • 爬虫学习————开始
  • 宇树科技王兴兴:第一桶金来自上海,欢迎上海的年轻人加入
  • 欧洲理事会前主席米歇尔受聘中欧国际工商学院特聘教授,上海市市长龚正会见
  • OpenAI任命了一位新CEO
  • 2025江西跨境电子商务发展交流会召开,探索行业发展新趋势
  • 习近平《在庆祝中华全国总工会成立100周年暨全国劳动模范和先进工作者表彰大会上的讲话》单行本出版
  • 民生访谈|摆摊设点、公园搭帐篷、行道树飘絮,管理难题怎么解?