当前位置: 首页 > news >正文

【DataWhale】快乐学习大模型 | 202507,Task06笔记

Encoder-only PLM

有标注的数据是很贵的,利用预测文本中间内容这种无监督的方式可以有效地利用大量的无标注数据,提升模型效果。

BERT

核心:
1、利用到了前后信息
训练时通过:
I love [MASK] because you are [MASK].
来预测MASK。

RoBERTa

优化:
1、去掉 NSP 预训练任务
2、更⼤规模的预训练数据和预训练步⻓
3、更⼤的 bpe 词表
核心:
1、更大规模的预训练数据
2、动态遮蔽策略提升性能

ALBERT

优化:
1、将 Embedding 参数进⾏分解
2、跨层进⾏参数共享
3、提出 SOP 预训练任务
核心:
1、Encoder参数共享
2、改进的预训练任务减少参数量提升性能
里面用到的SOP的训练方法有点对比学习的感觉

名词解释

BERT: (Bidirectional Encoder Representations from Transformers), 基于Transformer的双向编码器表示,是一个预训练语言模型,主要用于自然语言理解(NLU)任务。
MLM: (Masked Language Model), 掩码语言模型,BERT的预训练任务之一,通过随机遮蔽部分token并要求模型预测被遮蔽的token来训练模型捕捉双向语义关系。
NSP: (Next Sentence Prediction), 下一句预测,BERT的另一个预训练任务,通过判断两个句子是否是连续的上下文来训练模型的句级语义关系拟合能力。
NLU: (Natural Language Understanding), 自然语言理解,NLP的一个子领域,专注于让计算机理解人类语言的语义。
NLG: (Natural Language Generation), 自然语言生成,NLP的一个子领域,专注于让计算机生成自然语言文本。
LLM: (Large Language Model), 大型语言模型,指参数量极大、预训练数据规模庞大的语言模型,如GPT系列。
SOTA: (State Of The Art), 当前最优性能,指在某个任务或领域中达到的最佳性能水平。
RoBERTa: (Robustly Optimized BERT Approach), 一种对BERT进行优化的预训练模型,通过改进预训练任务和使用更大规模的预训练数据来提升性能。
ALBERT: (A Lite BERT), 一种对BERT进行优化的预训练模型,通过减少模型参数量并引入新的预训练任务(SOP)来提升性能。
SOP: (Sentence Order Prediction), 句子顺序预测,ALBERT提出的预训练任务,通过判断两个句子的顺序关系来增加预训练的难度。
BPE: (Byte Pair Encoding), 字节对编码,一种分词方法,将文本切分为子词对,用于提高模型对文本的编码能力。
WordPiece: 一种基于统计的子词切分算法,将单词拆解为子词,用于分词和模型输入。
这些缩写在自然语言处理领域中非常常见,理解它们的全称和含义有助于更好地把握相关技术和模型的核心概念。

参考资料

1、happy-llm/docs/chapter3/第三章 预训练语言模型.md
2、kimi

http://www.dtcms.com/a/294068.html

相关文章:

  • OpenLayers 快速入门(二)Layer 对象
  • 身份证实名认证-身份证二要素核验接口-身份证有效性验证
  • 【通识】手机和芯片相关
  • PPO:强化学习中的近端策略优化——原理、演进与大规模应用实践
  • 一场跨越300公里的危险品运输手记
  • 平台端数据统计功能设计:用数据驱动运营决策
  • docker的镜像与推送
  • 域名解析(DNS 解析)
  • Typora 2025 最新版 1.10.8 激活版
  • 「源力觉醒 创作者计划」深度讲解大模型之在百花齐放的大模型时代看百度文心大模型4.5的能力与未来
  • 为什么设置 git commit签名是公钥而不是私钥?
  • Flutter学习笔记(四)---基础Widget
  • 大厂总结常用分析问题方法之CMMI-IDEAL模型
  • 【unitrix】 6.13 类型级整数的按位取反(Not)操作实现(not.rs)
  • C++(面向对象封装、继承、多态)
  • 0018-基于单片机颜色识别系统设计
  • 数据结构系列之二叉搜索树
  • 单片机-----基础知识整合
  • 【图论,拓扑排序】P1347 排序
  • Rocky9部署Zabbix7(小白的“升级打怪”成长之路)
  • MySQL用户管理(15)
  • AI安全“面壁计划”:我们如何对抗算法时代的“智子”封锁?
  • 漏洞生命周期管理:从发现到防护的全流程方案
  • Linux权限机制:设计哲学、实现原理与安全实践
  • 如何加固Endpoint Central服务器的安全?(下)
  • adb: CreateProcessW failed: 系统找不到指定的文件
  • RAG项目实战:LangChain 0.3集成 Milvus 2.5向量数据库,构建大模型智能应用
  • uniapp+vue3小程序点击保存图片、保存二维码
  • 盘古信息PCB解决方案:重构PCB制造基因,开启智造新纪元
  • 半导体 CIM(计算机集成制造)系统