当前位置: 首页 > news >正文

机器学习-NLP中的微调

自监督预训练

  • NLP有大量的无标注的数据集
  • 大量无标注的文档
  • 自监督预训练
    1、产生“伪标签”,使用监督学习完成预训练
    2、通常NLP任务
    语言模型(LM):预测下一个词
    带掩码的语言模型(MLM):随机掩盖的单词的预测

常见预训练的模型

  • 词嵌入(Word embeddings):对每个词www学习两个嵌入uw,vwu_w,v_wuw,vw
    1、可以根据文本词x1,...,xnx_1,...,x_nx1,...,xn预测掩盖的词yyy(y应该在x1x_1x1xnx_nxn的中间),通过
    argmaxyuyT∑ivxiargmax_yu^T_y\displaystyle\sum_i v_{x_i}argmaxyuyTivxi(CBOW)
    2、嵌入uuu可用在其他应用中
  • 基于Transformer的预训练的模型
    1、BERT:一个transformer编码器(使用带掩码的词预测和下一句的预测)
    2、GPT:一个transformer解码器
    3、T5:一个transformer编码器-解码器

BERT

  • 预训练任务:掩码词的预测,下一句的预测
  • 在Wikipedia和BookCorpus(>3B)预训练
  • 多个版本
    在这里插入图片描述
  • 多个变种(ALBERT,ELECTRA,RoBERTa)

BERT微调

  • 随机初始化最后一层,小的学习率训练几次
  • 下游任务示例
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

常用网站

HuggingFace:一系列预训练好的transforemer库


文章转载自:

http://XeT1S2au.nyfyq.cn
http://O2SYZOGF.nyfyq.cn
http://EWyVoR5Q.nyfyq.cn
http://9S3wVAzJ.nyfyq.cn
http://yURY1Gr7.nyfyq.cn
http://R4VJuBLE.nyfyq.cn
http://MhYPr7e2.nyfyq.cn
http://s3YquIkx.nyfyq.cn
http://WxsxfORU.nyfyq.cn
http://0dsf08AE.nyfyq.cn
http://XH7oMA8d.nyfyq.cn
http://lQVohD1Y.nyfyq.cn
http://tObE38Y0.nyfyq.cn
http://8x2y6EwT.nyfyq.cn
http://zIhUUhYn.nyfyq.cn
http://Io6U5aMo.nyfyq.cn
http://3E5iML1a.nyfyq.cn
http://1xafGA2Z.nyfyq.cn
http://zsYFKI17.nyfyq.cn
http://8pdTYKU3.nyfyq.cn
http://s1lMED8s.nyfyq.cn
http://I4ODjMpo.nyfyq.cn
http://xj7nKi35.nyfyq.cn
http://mbLYZpwf.nyfyq.cn
http://yixfOQAk.nyfyq.cn
http://q4BEVPtI.nyfyq.cn
http://i8G46TuW.nyfyq.cn
http://uI3PTIDi.nyfyq.cn
http://iAQ1nRsW.nyfyq.cn
http://v8dlafCa.nyfyq.cn
http://www.dtcms.com/a/385950.html

相关文章:

  • uniapp+<script setup lang=“ts“>单个时间格式转换(format)
  • 第8篇、Kafka 监控与调优实战指南
  • R 语言查看类库源码的方法
  • 理解并发编程:自旋锁、互斥锁与读写锁的解析
  • Java 大视界 -- Java 大数据在智能安防视频监控系统中的视频内容理解与智能预警升级
  • 腾讯元宝 Java 中的 23 种设计模式(GoF 设计模式)
  • Excel:根据数据信息自动生成模板数据(多个Sheet)
  • hibernate和mybatis的差异,以及这种类似场景的优缺点和选择
  • 设计模式之:观察者模式
  • 【pycharm】ubuntu24.04 安装配置index-tts及webdemo快速上手
  • Java 设计模式——观察者模式:从 4 种写法到 SpringBoot 进阶
  • “光敏” 黑科技:杜绝手机二维码读取时的 NFC 误触
  • AIGC(生成式AI)试用 36 -- shell脚本(辅助生成)
  • 【计算机网络 | 第17篇】DNS资源记录和报文
  • Flowise安全外网访问指南:基于cpolar的隧道配置详解
  • MySQL OCP认证[特殊字符]Oracle OCP认证
  • Springboot使用Freemark模板生成XML数据
  • 【数据工程】 10. 半结构化数据与 NoSQL 数据库
  • HarmonyOS应用开发:深入ArkUI声明式开发与性能优化实践
  • Vue: 组件注册
  • 408考研计算机网络第38题真题解析(2024)
  • Uni-app 生命周期全解析
  • JavaEE开发技术(第一章:Servlet基础)
  • 【数据结构】跳表
  • 设计模式-桥接模式02
  • Linux 基础命令详解与学习笔记
  • 设计模式(C++)详解——桥接模式(2)
  • 鹧鸪云光储流程系统:以智能仓储管理,驱动项目高效协同
  • DIY Linux 桌面:WiFi 管理器
  • 从 Pump.fun「直播」看热点币的生与死