当前位置：首页 > news >正文

机器学习-NLP中的微调

news 2025/9/17 6:11:40

自监督预训练

NLP有大量的无标注的数据集
大量无标注的文档
自监督预训练
1、产生“伪标签”，使用监督学习完成预训练
2、通常NLP任务
语言模型（LM）：预测下一个词
带掩码的语言模型（MLM）：随机掩盖的单词的预测

常见预训练的模型

词嵌入（Word embeddings）：对每个词 $w$ 学习两个嵌入 $u_w,v_w$
1、可以根据文本词 $x_1,...,x_n$ 预测掩盖的词 $y$ (y应该在 $x_1$ 和 $x_n$ 的中间)，通过
$argmaxyuyT∑ivxiargmax_yu^T_y\displaystyle\sum_i v_{x_i}$ （CBOW）
2、嵌入 $u$ 可用在其他应用中
基于Transformer的预训练的模型
1、BERT：一个transformer编码器（使用带掩码的词预测和下一句的预测）
2、GPT：一个transformer解码器
3、T5：一个transformer编码器-解码器

BERT

预训练任务：掩码词的预测，下一句的预测
在Wikipedia和BookCorpus（>3B）预训练
多个版本
多个变种（ALBERT,ELECTRA,RoBERTa）

BERT微调

随机初始化最后一层，小的学习率训练几次
下游任务示例

常用网站

HuggingFace：一系列预训练好的transforemer库

文章转载自：

http://XeT1S2au.nyfyq.cn
http://O2SYZOGF.nyfyq.cn
http://EWyVoR5Q.nyfyq.cn
http://9S3wVAzJ.nyfyq.cn
http://yURY1Gr7.nyfyq.cn
http://R4VJuBLE.nyfyq.cn
http://MhYPr7e2.nyfyq.cn
http://s3YquIkx.nyfyq.cn
http://WxsxfORU.nyfyq.cn
http://0dsf08AE.nyfyq.cn
http://XH7oMA8d.nyfyq.cn
http://lQVohD1Y.nyfyq.cn
http://tObE38Y0.nyfyq.cn
http://8x2y6EwT.nyfyq.cn
http://zIhUUhYn.nyfyq.cn
http://Io6U5aMo.nyfyq.cn
http://3E5iML1a.nyfyq.cn
http://1xafGA2Z.nyfyq.cn
http://zsYFKI17.nyfyq.cn
http://8pdTYKU3.nyfyq.cn
http://s1lMED8s.nyfyq.cn
http://I4ODjMpo.nyfyq.cn
http://xj7nKi35.nyfyq.cn
http://mbLYZpwf.nyfyq.cn
http://yixfOQAk.nyfyq.cn
http://q4BEVPtI.nyfyq.cn
http://i8G46TuW.nyfyq.cn
http://uI3PTIDi.nyfyq.cn
http://iAQ1nRsW.nyfyq.cn
http://v8dlafCa.nyfyq.cn

http://www.dtcms.com/a/385950.html

相关文章：

uniapp+＜script setup lang=“ts“＞单个时间格式转换（format）

第8篇、Kafka 监控与调优实战指南

R 语言查看类库源码的方法

理解并发编程：自旋锁、互斥锁与读写锁的解析

Java 大视界 -- Java 大数据在智能安防视频监控系统中的视频内容理解与智能预警升级

腾讯元宝 Java 中的 23 种设计模式（GoF 设计模式）

Excel：根据数据信息自动生成模板数据（多个Sheet）

hibernate和mybatis的差异，以及这种类似场景的优缺点和选择

设计模式之：观察者模式

【pycharm】ubuntu24.04 安装配置index-tts及webdemo快速上手

Java 设计模式——观察者模式：从 4 种写法到 SpringBoot 进阶

“光敏” 黑科技：杜绝手机二维码读取时的 NFC 误触

AIGC（生成式AI）试用 36 -- shell脚本（辅助生成）

【计算机网络 | 第17篇】DNS资源记录和报文

Flowise安全外网访问指南：基于cpolar的隧道配置详解

MySQL OCP认证[特殊字符]Oracle OCP认证

Springboot使用Freemark模板生成XML数据

【数据工程】 10. 半结构化数据与 NoSQL 数据库

HarmonyOS应用开发：深入ArkUI声明式开发与性能优化实践

Vue: 组件注册

408考研计算机网络第38题真题解析（2024）

Uni-app 生命周期全解析

JavaEE开发技术（第一章：Servlet基础）

【数据结构】跳表

设计模式-桥接模式02

Linux 基础命令详解与学习笔记

设计模式(C++)详解——桥接模式(2)

鹧鸪云光储流程系统：以智能仓储管理，驱动项目高效协同

DIY Linux 桌面：WiFi 管理器

从 Pump.fun「直播」看热点币的生与死