当前位置: 首页 > news >正文

bert扩充或者缩小词表

在BERT模型中添加自己的词汇(pytorch版) - 知乎

输入

1. 扩充词表

替换bert词表中的【unused】

2. 缩小词表

因为要使用预训练的模型,词id不能变,词向量矩阵大小不变

要做的是将减少的那一部分词全部对应为unk,即可

输出

如果是mlm任务,输出也是bert的词表大小。

1. 扩充词表

(1) 不改变原来的id,直接将【unused】换成要补充汉字

(2) bert词表+新词重新排列,在词表中的,使用对应的分类参数初始化,不在的,随机初始化

added_tokens.json  怎么用

2. 缩小词表

这里可以随机挑选bert中的词,将对应的分类参数拷贝过来即可, 重新安排好

http://www.dtcms.com/a/224001.html

相关文章:

  • 【NLP 78、手搓Transformer模型结构及实战】
  • 中文NLP with fastai - Fastai Part4
  • G25-05-31Rust开源项目日报 Top10
  • 基于热力学熵增原理的EM-GAM
  • Baklib企业CMS全流程管控与智能协作
  • 尚硅谷redis7 99 springboot整合redis之连接集群
  • 知识管理五强对比:Baklib高效突围
  • Python简易音乐播放器开发教程
  • LeetCode 算 法 实 战 - - - 移 除 链 表 元 素、反 转 链 表
  • 双目相机深度的误差分析(基线长度和相机焦距的选择)
  • Linux系统编程之共享内存
  • 【设计模式-4.5】行为型——迭代器模式
  • KWIC—Implicit Invocation
  • 【代码坏味道】变更阻碍者Change Preventers
  • Tomcat的整体架构及其设计精髓
  • MAC软件游戏打开提示已损坏
  • 通义灵码深度实战测评:从零构建智能家居控制中枢,体验AI编程新范式
  • azure web app创建分步指南系列之二
  • CSS专题之水平垂直居中
  • Redis最佳实践——安全与稳定性保障之高可用架构详解
  • Ubuntu22.04通过命令行安装qt5
  • ubuntu20.04.5-arm64版安装robotjs
  • 在Ubuntu20.04上安装ROS Noetic
  • ubuntu20.04.5--arm64版上使用node集成java
  • Ubuntu搭建DNS服务器
  • 【Ubuntu】摸鱼技巧之虚拟机环境复制
  • 配置远程无密登陆ubuntu服务器时无法连接问题排查
  • 第六十三节:深度学习-模型推理与后处理
  • 使用Java实现简单的计算机案例
  • 系统是win11+两个ubuntu,ubuntu20.04和ubuntu22.04,想删除ubuntu20.04且不用保留数据