当前位置: 首页 > news >正文

Bert预训练任务-MLM/NSP

MLM

        MLM:Masked Language Mode:在每一个训练序列中以15%的概率随机地选中某个token进行MASK,当一个token被选中后,有以下三种处理方式:

  1. 80%的概率被[MASK],如my dog is hairy->my dog is [MASK]
  2. 10%的概率修改为随机的其他token,如my dog is hairy->my dog is apple
  3. 10%的概率修改为随机的其他token,如my dog is hairy->my dog is hairy

        然后再对该位置的MASK进行预测。以上的MLM任务让BERT针对被MASK的token的上下文信息预测目标token。

NSP

        NSP:Next Sentence Prediction,对于每一个训练样例,进行如下操作。

  1. 50%的概率保持原有顺序(标注为lsNext)
  2. 50%的概率后面的句子被替换为文档的其他随机句B(标注为NotNext)。接下来把训练样例输入到BERT模型中,用[CLS]对应的信息去进行二分类。

http://www.dtcms.com/a/207097.html

相关文章:

  • Python打卡训练营day29-类的装饰器
  • 并发编程实战--对象的共享
  • 基于机器学习的策略开发和Backtrader回测
  • JAVA SE — 循环与分支和输入输出
  • VS Code + Maven 创建项目
  • JDK8中的 Stream流式编程用法优化(工具类在文章最后)
  • 【记录】PPT|PPT打开开发工具并支持Quicker VBA运行
  • C++初阶-list的使用1
  • Ubuntu 通过指令远程命令行配置WiFi连接
  • GuzzleHttp和DomCrawler的具体用途?
  • 【自用-python】生成准心居中exe程序,防止云电脑操作时候鼠标偏移
  • 谷歌开源医疗领域多模态生成式AI模型:medgemma-4b-it
  • 关于常见日志的几种级别和格式
  • mapbox V3 新特性,实现三维等高线炫酷效果
  • 工业物联网中隐私保护入侵检测的联邦学习增强型区块链框架
  • MyBatis-Plus的自带分页方法生成的SQL失败:The error occurred while setting parameters
  • 522UART是什么
  • 【项目】抽奖系统bug历程(持续更新)
  • Git分支的强制回滚
  • Python Click库:轻松构建优雅的命令行工具
  • 技术篇-2.1.C\C++应用场景及开发工具安装
  • Java使用Collections集合工具类
  • 力扣238.除自身以外数组的乘积
  • 【TI MSP430与SD NAND:心电监测的长续航解决方案】
  • Oracle 中 SHRINK 与 MOVE 操作的比较
  • 第二十九天打卡
  • 分布式锁(详解)
  • ISO 26262-5 生产维护和报废
  • MQTT控制报文
  • 初学c语言18(自定义类型:结构体)