当前位置: 首页 > news >正文

【大模型】Bert变种

1. RoBERTa(Robustly optimized BERT approach)

  • 核心改动
    1. 取消 NSP(Next Sentence Prediction)任务,研究发现 NSP 对多数下游任务贡献有限。
    2. 动态遮蔽(dynamic masking):每个 epoch 重新生成 Mask 掩码,而非一次性固定,从而引入更多样本变体。
    3. 更长训练、更大批次:使用更大 batch size(比如 8K–16K tokens)和更多预训练数据。
    4. 拼写单位改进:采用基于 bytes 而非字符的 BPE,处理 Unicode 时更鲁棒。
  • 效果:在 GLUE、SQuAD 等基准上显著超过原始 BERT,成为后续多模型竞赛常用基线。

2. ALBERT(A Lite BERT)

  • 核心改动
    1. 参数共享:跨层共享 Transformer 参数,大幅减少模型总参数量。
    2. Embedding 分离:将词向量维度 E E E与隐藏层维度 H H H解耦,通常设定 E ≪ H E \ll H EH,减小 Embedding 参数开销。
    3. 用 SOP(Sentence Order Prediction)替代 NSP:模型需要判断两句文本是否颠倒,提升句间理解。
  • 效果:在 GLUE、RACE 等多个任务上,以更少参数(如 ALBERT-xxlarge 仅 235M)匹配或超越 BERT-Large 的表现。

3. DistilBERT & TinyBERT(蒸馏版 BERT)

  • 核心改动
    • 知识蒸馏(Knowledge Distillation):用大模型(教师)对小模型(学生)提供软标签,使学生网络尽量拟合教师的输出分布。
    • DistilBERT:从 BERT-Base 蒸馏,保留 60% 参数、运行速度提升 ~60%,在 GLUE 上保留 ≈95% 性能。
    • TinyBERT:进一蒸馏到更小结构(≈28% 参数),还引入中间层对齐、注意力矩阵对齐等技巧。
  • 效果:适用于资源受限场景(移动端、在线推理),在准确率与效率间取得良好平衡。

4. ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)

  • 核心改动
    • 判别式预训练:不再纯掩码预测真实词,而是由小 Generator 模型先生成“伪替换”词,主模型(Discriminator)学习判断每个 token 是否被替换。
    • Generator 与 Discriminator 共同训练,模拟 GAN 思想,但更适合文本。
  • 效果:在相同计算预算下,ELECTRA-Small、-Base 在 GLUE、SQuAD 上均超过同规模的 MLM 模型,样本效率更高。

5. DeBERTa(Decoding-enhanced BERT with Disentangled Attention)

  • 核心改动
    1. 解耦位置与内容编码:将 token embedding 与 position embedding 保持分离,分别计算 Attention,然后再融合。
    2. 相对位置偏置:在 Attention 中引入可学习的相对位置矩阵,而非简单相加。
  • 效果:在 GLUE、SuperGLUE、阅读理解等多项任务上刷新当时最优,多用于大规模研究与基线。

6. SpanBERT(Improving Pre-training by Representing and Predicting Spans)

  • 核心改动
    1. 跨度级掩码:一次遮蔽连续的文本 span(平均长 3.8 个 token),而非随机单字或子词,以更好地学习文段内部关联。
    2. Span-Boundary Objective (SBO):利用被遮蔽 span 两端的边界表示,预测整个 span 的内容,而非仅逐字预测。
  • 效果:在抽取式问答(SQuAD 1.1/2.0)、共指消解(OntoNotes)等跨度选择任务上,对比同等大小 BERT-Large 提升数个百分点;在关系抽取、GLUE 等也有溢出式提升。

相关文章:

  • 序列化与反序列化
  • GitHub 趋势日报 (2025年05月28日)
  • DeepSeekMath:突破开放式语言模型中数学推理能力的极限
  • 基于 GitLab CI + Inno Setup 实现 Windows 程序自动化打包发布方案
  • 【unity游戏开发——编辑器扩展】EditorApplication公共类处理编辑器生命周期事件、播放模式控制以及各种编辑器状态查询
  • 【Linux网络编程】传输层协议TCP,UDP
  • 记录一个难崩的bug
  • 从零开始的云计算生活——第十四天,困难重重,安全管理。
  • 社群分享:义乌|杭州电商|店群卖家,私域鱼塘运营的排单系统开源|私域鱼塘运营|返款软件开源
  • Azure Devops pipeline 技巧和最佳实践
  • 新版LangChain向量数据库VectorStore设计详解
  • 关于智能体接入后端,在Apifox能够传参数给智能体的测试
  • 云原生与DevOps融合实践:加速企业数字化转型的加速器
  • 群辉(synology)NAS老机器连接出现网页端可以进入,但是本地访问输入一样的账号密码是出现错误时解决方案
  • VSCode的下载与安装(2025亲测有效)
  • 生益的高速PCB板材有哪些
  • 使用 Azure DevOps 管道部署到本地服务器
  • Java设计模式之中介者模式详解
  • 结构性设计模式之Bridge(桥接)
  • Python----目标检测(《用于精确目标检测和语义分割的丰富特征层次结构》和R-CNN)
  • 河南省建设部网站/百度app安装免费下载
  • 网站建设 上海/引流黑科技app
  • 海口做网站公司/站长统计app进入网址新版
  • 南川网站建设/2023疫情最新情况
  • 买卖网站建设/百度推广退款电话
  • 福州专业网站建设/湖南靠谱seo优化