当前位置: 首页 > news >正文

论文阅读——DistilBERT

ArXiv:https://arxiv.org/abs/1910.01108

Train Loss:

DistilBERT:

DistilBERT具有与BERT相同的一般结构,层数减少2倍,移除token类型嵌入和pooler。从老师那里取一层来初始化学生。

The token-type embeddings and the pooler are removed while the number of layers is reduced by a factor of 2. Most of the operations used in the Transformer architecture (linear layer and layer normalisation) are highly optimized in modern linear algebra frameworks。

we initialize the student from the teacher by taking one layer out of two.

大batch,4k,动态mask,去掉NSP

训练数据:和BERT一样

相关文章:

  • 2.1 ppq量化pytorch->onnx
  • 轻量级 IDE 文本编辑器 Geany 发布 2.0
  • 单元测试到底测什么,怎么测?我来告诉你
  • 计算机网络【CN】介质访问控制
  • c++ pcl 选取点云某一点反馈XYZ坐标的代码
  • [已解决]大数据集群CPU告警问题解决
  • iptables使用示例
  • Stream流
  • AI与Prompt:解锁软件开发团队的魔法咒语,在复杂任务上生成正确率更高的代码
  • 部署vuepress项目到githubPage
  • Android S从桌面点击图标启动APP流程 (五)
  • 通用管理后台项目笔记 - Vue3+Vite安装环境、封装路由
  • el-input输入内容类型为大于0的数字
  • 安防视频监控平台EasyCVR前端解码与后端解码的区别介绍
  • 【MySql】10- 实践篇(八)
  • 几个常用的nosql数据库的操作方式
  • 模块化时代的必备工具:Webpack详解,为你的项目注入新活力
  • 浅谈Vue3——如何使用Push
  • 将字符串中符合规则的元素替换为指定元素 re.sub()
  • 如何在用pip配置文件设置HTTP爬虫IP
  • 如何做网站拉动条/网站注册流程
  • 网络营销的特点包括哪些/广州网站优化外包
  • 手机上如何做网站/seo海外推广
  • 手机网站开发人员工具/网站推广100种方法
  • php能干嘛 wordpress/自动app优化最新版
  • 泰州做网站的/百度搜索关键词推广