当前位置: 首页 > news >正文

Bert学习笔记

1、Bert的嵌入层(输入表示)

WordPiece(子词分词方法)+ 绝对位置编码 + Segment Embedding

        WordPiece Embedding BERT 使⽤ WordPiece 作为分词⽅法,将单词划分为⼦词单元。
种处理⽅式既能处理未知词汇,⼜能提⾼模型的灵活性和泛化能⼒。例如,罕⻅或不规则单词会被
分成更常⻅的⼦词单位,进⽽能够在训练中更好地学习到词汇语义。

笔记见:Tokenizer训练方式和常见的分词模型-CSDN博客

        位置嵌⼊ (Position Embedding) :由于 BERT 只使⽤ Transformer 的编码器部分,并不依
赖于序列化结构(如 RNN 或 LSTM),因此它⽆法从输⼊序列中⾃然地获取位置信息。为了弥补这⼀点,BERT 通过位置嵌⼊为每个词汇添加了位置特征,使模型能够感知词汇在序列中的相对位
置。BERT 初始化了⼀个位置嵌⼊矩阵,并在训练过程中学习这些位置向量。

        段落嵌⼊ (Segment Embedding) :在 BERT 中,输⼊通常是两个句⼦拼接⽽成,特别是在句
⼦预测任务 (Next Sentence Prediction, NSP) 中。因此,BERT 为输⼊中的每个 token 添加⼀个
段落嵌⼊,⽤来区分句⼦ A 和句⼦ B,帮助模型更好地理解句⼦之间的关系。

        最终,BERT 的输⼊是这三种嵌⼊的求和:wordpiece embedding + position embedding +
segment embedding,这样能够同时捕捉词汇、位置、以及句⼦间的信息。

2、Bert的编码器层(Transformer的Encoder)

        BERT 的主要结构是基于 Transformer 的编码器部分,通过堆叠多层编码器来实现深度语义学
习。Transformer 编码器包含⼏个核⼼部分:multi-head-Attention + Layer Normalization + feedforword + Layer Normalization 叠加产⽣,BERT的每⼀层由⼀个这样的encoder单元构成。

3、预训练任务 (Pre-training Tasks)

BERT 在⼤规模语料上通过⾃监督学习进⾏了预训练,主要包括两个任务:

4、BERT模型特点

http://www.dtcms.com/a/356913.html

相关文章:

  • CSS scale函数详解
  • 基于BeautifulSoup库的简易爬虫实现:以大学排名为例
  • 【K8s】整体认识K8s之与集群外部访问--service
  • 机器学习回顾——逻辑回归
  • pcl封装6 connection_cloud 提取聚簇后的每个点云
  • 开源vs商用美颜sdk:美白滤镜功能在直播中的优劣对比
  • RoadMP3告别车载音乐烦恼,一键get兼容音频
  • FDTD_mie散射_项目研究(1)
  • 抖音电商首创最严珠宝玉石质检体系,推动行业规范与消费扩容
  • Shader开发(十八)实现纹理滚动效果
  • Shell 脚本基础教程
  • AARRR模型(用户生命周期模型)——用户怎么长大的?
  • 【人工智能99问】GPT4的原理是什么?(32/99)
  • 【备战2025数模国赛】(三)数模常见赛题类型及解决办法
  • 矩池云中LLaMA- Factory多机多卡训练
  • 介绍⼀下Llama的结构
  • 身份证实名认证API集成—身份核验接口-网络平台安全合规
  • GoogLeNet:深度学习中的“卷积网络变形金刚“
  • 安全月报 | 傲盾DDoS攻击防御2025年8月简报
  • 贷款审批太慢,如何快速完成财务报表识别录入?
  • 第十三章项目资源管理--13.8 控制资源
  • 关于人工智能模型应用于编程学习我也说两句
  • 2025 IBMS智能化集成系统全面解析指导手册
  • 8月29日星期五今日早报简报微语报早读
  • 创维E910V10C_海思MV100芯片_优盘强刷卡刷固件包
  • 基于脚手架微服务的视频点播系统界面布局部分(一):首页及播放界面布局
  • 【基于hyperledger fabric的教育证书管理系统】
  • redux toolkit (RTK)
  • 蓝牙配对鉴权过程深度剖析:Just Works/Numeric Comparison/Passkey Entry/OOB 协议流程
  • KNN算法详解:从原理到实战(鸢尾花分类 手写数字识别)