当前位置: 首页 > news >正文

notes_NLP

RNN > LSTM, GRU

model特点
RNN
LSTMinput+forget+putput;
GRUreset+update;参数比LSTM少,计算效率更高;

循环神经网络(RNN/LSTM/GRU)
人人都能看懂的GRU

transformer > self-attention

  1. 根据Query和Key计算权重系数
    1.1 根据Query和Key计算两者的相似性或者相关性
    1.2 对第一阶段的原始分值进行归一化处理
  2. 根据权重系数对Value进行加权求和

Transformerattention机制和LSTMgate机制都通过加权方法控制了信息的流动;当前时刻的输出依赖于历史(单向模型)或者历史和未来的信息(双向模型)。
不同点:

modelattentiongate
激活函数sigmoidsoftmax
操作对象全局元素
可作用范围any有限

Attention weights和LSTM/GRU中的gate机制有何不同?
超详细图解Self-Attention
熬了一晚上,我从零实现了Transformer模型,把代码讲给你听

预训练语言模型

预训练:在模型参数初始化时使用已经在一些任务上预先训练完的、而非随机的参数。在后续具体任务上,可以冻结(fronzen)微调(fine-tune)参数。

预训练语言模型:在以word2vec(2013)为代表的第一代预训练语言模型中,一个单词的词向量是固定不变的,无法区分单词的不同语义。ELMo(2018)考虑了上下文的信息,较好地解决了多义词的表示问题,开启了第二代预训练语言模型的时代,即预训练+微调的范式。

自回归模型可以类比为早期的统计语言模型,也就是根据上文预测下一个单词,或者根据下文预测前面的单词。包括ELMoGPTXLNet等。
自编码模型可以在输入中随机掩盖一个单词(相当于噪声),在预训练过程中,根据上下文预测被掩码词,因此可以认为是一个降噪(denosing)的过程。包括BERTERINERoBERTa等。

MLM (Masked Language Modeling) 是一种预训练语言模型的方法,通过在输入文本中随机掩盖一些单词或标记,并要求模型预测这些掩盖的单词或标记。主要目的是训练模型来学习上下文信息,以便在预测掩盖的单词或标记时提高准确性。

一文了解预训练语言模型!
预训练模型与10种常见NLP预训练模型
Masked Language Modeling

ProtBERT

… …

相关文章:

  • Nginx的基本介绍 安装 配置文件 日志
  • 想要查看员工与客户聊天记录和跟进情况,有什么工具推荐吗?
  • 深度解析 Bing 搜索引擎的排名因素与算法
  • TS和JS的区别
  • python之字典的用法
  • 工程管理系统简介 工程管理系统源码 java工程管理系统 工程管理系统功能设计
  • Redis缓存(缓存预热,缓存穿透,缓存雪崩,缓存击穿)
  • Nginx缓存
  • springBoot--web--函数式web
  • 可管理链接仪表板Bender
  • 打破运维疆界:异构复杂网络环境的集中监控和管理
  • django基于Python的房价预测系统+爬虫+大屏可视化分析
  • LuatOS-SOC接口文档(air780E)--lcd - lcd驱动模块
  • 分布式内存计算Spark环境部署与分布式内存计算Flink环境部署
  • 最新Tuxera NTFS2023最新版Mac读写NTFS磁盘工具 更新详情介绍
  • Filter与Listener(过滤器与监听器)
  • 第6周 .NET
  • Jupyter Notebook 设置黑色背景主题
  • Flutter Image组件如何处理图片加载过程中的错误?
  • Python-Python高阶技巧:闭包、装饰器、设计模式、多线程、网络编程、正则表达式、递归
  • 东风着陆场近日气象条件满足神舟十九号安全返回要求
  • 被算法重塑的世界,人与技术如何和谐共处
  • 路边“僵尸车”被人以1450元卖了,嫌疑人被刑拘
  • 广西干旱程度有所缓解,未来一周旱情偏重地区降水量仍不足
  • 专访丨青年作家杜梨:以动物的视角去观察这个世界
  • 马上评丨学生举报食堂饭菜有蛆,教育局应该护谁的犊子