当前位置: 首页 > news >正文

BERT 大模型

BERT 大模型

  • Embedding
  • Transformer
  • 预微调模块
  • 预训练任务

BERT 特点 :

  • 优点 : 在语言理解相关任务中表现很好
  • 缺点 : 更适合 NLU 任务,不适合 NLG 任务

BERT 架构:双向编码模型 :

  • Embedding 模块
  • Transformer 模块
  • 预微调模块

Embedding

Embedding 组成 :

  • Token Embeddings:词嵌入张量,第一个单词是CLS标志,用于分类任务
  • Segment Embeddings:句子分段嵌入张量,用于两个句子为输入的预训练任务
  • Position Embeddings:位置编码张量
  • 输出张量 : 这3个张量的直接加和结果

Transformer

Transformer :

  • 只用 Transformer 的 Encoder 部分 , 舍弃 Decoder
  • 预训练任务集中在训练 Transformer 中

预微调模块

  • 根据任务不同需求调整最后一层
  • 对于sequence-level的分类任务,取第一个[CLS]token的final hidden state,加一层全连接层后进行softmax预测标签

预训练任务

MaskedLM(带 mask 的语言模型训练)

  • 输入句子中随机抽取 15% 的 token 作为训练对象
  • 80% 概率用 MASK 标记替换 token ,10% 概率用随机单词替换 token,10% 概率保持 token 不变

NextSentencePrediction(下一句话预测任务)

  • 输入句子对 (A , B) ,预测句子B是否是句子A的真实下一句
  • 50% 的 B 是原始文本中真实跟随A的下一句(正样本),50% 的 B 是随机抽取的一句话(负样本)

相关文章:

  • Grafana——Rocky9安装Grafana相关步骤记录
  • 【文献精读】AAAI24:FacetCRS:打破对话推荐系统中的“信息茧房”
  • 无第三方依赖 go 语言工具库
  • 1688商品评论API接口概述,json数据示例参考
  • Unity 手机屏幕适配
  • 简站主题:简洁、实用、SEO友好、安全性高和后期易于维护的wordpress主题
  • 记一次 Git Fetch 后切换分支为空的情况
  • oppo,汤臣倍健,康冠科技25届春招内推
  • 二、几何体BufferGeometry顶点笔记
  • 【MySQL高级】17 - MySQL中常用工具
  • 3.hadoop3.3.6 HA集群搭建
  • SpringBoot源码解析(十):应用上下文AnnotationConfigServletWebServerApplicationContext构造方法
  • 深度学习-1.简介
  • 深入探索 DeepSeek 在数据分析与可视化中的应用
  • qemu启动aarch64 linux+ buildroot + 应用程序
  • MAVSDK - Custom Mavlink处理
  • mybatis-mp正式改名为xbatis!!!
  • deepseek+ollama+anythingllm在本地搭建个人知识库
  • ollama server启动服务后如何停止
  • HTML之JavaScript DOM(document)编程处理事件
  • 国内规模最大女子赛艇官方赛事在沪启航,中外41支队伍逐浪
  • 流失79载,国宝文物“子弹库帛书”(二、三卷)回归祖国
  • 网易有道一季度净利润同比增长247%:有能力在今年实现更强劲的利润增长
  • 政企共同发力:多地密集部署外贸企业抢抓90天政策窗口期
  • 标普500指数连涨四日,大型科技股多数下跌
  • 上海高院与上海妇联签协议,建立反家暴常态化联动协作机制