当前位置：首页 > news >正文

BERT模型讲解

news 2025/7/3 9:01:24

BERT的模型架构

BERT: Bidirectional Encoder Representations from Transformers

BERT这个名称直接反映了：它是一个基于Transformer编码器的双向表示模型。BERT通过堆叠多层编码器来构建深度模型。举例来说：

BERT-Base：堆叠了12层Encoder，12个注意力头，768维隐藏层，参数量约110M
BERT-Large：堆叠了24层Encoder，16个注意力头，1024维隐藏层，参数量约340M

BERT的输入表示

BERT的输入表示是其独特之处，包含三部分：

Token Embedding：词元嵌入，将输入的单词转换为向量表示
Segment Embedding：段落嵌入，用于区分输入中的不同句子
Position Embedding：位置嵌入，编码词元在序列中的位置信息

与原始Transformer使用三角函数计算的Position Encoding不同，BERT的Position Embedding是需要学习的参数。

BERT预训练方法

同时进行两项无监督任务的训练来学习语言，即：

掩码语言模型MLM
下一句预测NSP

接下来我们展开讲解两种任务

掩码语言模型（Masked Language Model, MLM）

即完形填空从而让大模型可以学到上下文。具体做法是（论文中并没讲述为何用这个比例，可能是因为这个比例效果更佳）：

随机选择输入tokens中的15%
对于被选中的tokens：
策略1- 80%的情况下，将其替换为特殊标记[MASK]
策略2- 10%的情况下，将其替换为随机词
策略3- 10%的情况下，保持不变

举例：我爱大语言模型
在这里插入图片描述

下一句预测（Next Sentence Prediction, NSP）

NSP任务要求模型判断两个给定句子是否为原文中的相邻句子。这可以让模型理解句子间的关系。是与不是，这也就是转为了二分类任务。

举例：我爱大语言模型
在这里插入图片描述

查看全文

http://www.dtcms.com/a/180875.html

AI汽车时代的全面赋能者：德赛西威全栈能力再升级

【Python】超全常用 conda 命令整理

C++中static关键字详解：不同情况下的使用方式

浏览器节能机制导致Websocket断连的坑

CentOS 7 系统下安装 OpenSSL 1.0.2k 依赖问题的处理

[sklearn] 特征工程

支付宝沙盒模式商家转账经常出现响应异常: 解包错误

嵌入式裸机模块——软定时器

数据结构-堆

AWS之数据分析类产品

Mac 3大好用的复制粘贴管理工具对比

Android RxJava框架分析：它的执行流程是如何的？它的线程是如何切换的？如何自定义RxJava操作符？

第十七节：图像梯度与边缘检测-Sobel 算子

Uskin阵列式三轴力触觉传感器：驱动机器人智能的触觉数据专家

深入理解 Java 代理模式：从基础到实战

MiM: Mask in Mask Self-SupervisedPre-Training for 3D Medical Image Analysis

Docker宿主机IP获取

智慧工会服务平台建设方案Word(23页)

机器学习-无量纲化与特征降维（一）

爬虫学习————开始

AI服务器通常会运用在哪些场景当中？

vue dev-tools插件

电动汽车充换电设施可调能力聚合评估与预测 - 使用说明文档

亚马逊跨境新蓝海：解码爱尔兰电商市场的凯尔特密码

HDLC（High-Level Data Link Control，高级数据链路控制协议）

uniapp-商城-47-后台分类数据的生成（通过数据）

uniapp 不同路由之间的区别

高频数据结构面试题总结

数据类型：List

[特殊字符]适合母亲节的SVG模版[特殊字符]

BERT的模型架构

BERT的输入表示

BERT预训练方法

掩码语言模型（Masked Language Model, MLM）

下一句预测（Next Sentence Prediction, NSP）

相关文章：