当前位置：首页 > news >正文

论文阅读——DistilBERT

news 2025/10/17 4:42:54

ArXiv：https://arxiv.org/abs/1910.01108

Train Loss:

DistilBERT：

DistilBERT具有与BERT相同的一般结构，层数减少2倍，移除token类型嵌入和pooler。从老师那里取一层来初始化学生。

The token-type embeddings and the pooler are removed while the number of layers is reduced by a factor of 2. Most of the operations used in the Transformer architecture (linear layer and layer normalisation) are highly optimized in modern linear algebra frameworks。

we initialize the student from the teacher by taking one layer out of two.

大batch,4k,动态mask,去掉NSP

训练数据：和BERT一样

http://www.dtcms.com/a/3325.html

相关文章：

2.1 ppq量化pytorch-＞onnx

轻量级 IDE 文本编辑器 Geany 发布 2.0

单元测试到底测什么，怎么测？我来告诉你

计算机网络【CN】介质访问控制

c++ pcl 选取点云某一点反馈XYZ坐标的代码

[已解决]大数据集群CPU告警问题解决

iptables使用示例

Stream流

AI与Prompt：解锁软件开发团队的魔法咒语，在复杂任务上生成正确率更高的代码

部署vuepress项目到githubPage

Android S从桌面点击图标启动APP流程 (五)

通用管理后台项目笔记 - Vue3+Vite安装环境、封装路由

el-input输入内容类型为大于0的数字

安防视频监控平台EasyCVR前端解码与后端解码的区别介绍

【MySql】10- 实践篇(八)

几个常用的nosql数据库的操作方式

模块化时代的必备工具：Webpack详解，为你的项目注入新活力

浅谈Vue3——如何使用Push

将字符串中符合规则的元素替换为指定元素 re.sub()

如何在用pip配置文件设置HTTP爬虫IP

初学编程入门基础教学视频，中文编程开发语言工具箱之豪华编辑构件，免费版中文编程软件下载

Bootstrap知识点目录

【Java笔试强训】Day7（WY22 Fibonacci数列、CM46 合法括号序列判断）

软考网工历年简答题汇总（2016下半年~2023年上半年）

在excel中如何打出上标、下标

算法刷题-栈与队列

python赋值运算符，及查询表

大数据笔记-关于Cassandra的删除问题

uboot - 驱动开发 - 驱动模型

从瀑布模式到水母模式：ChatGPT如何赋能软件研发全流程