当前位置：首页 > news >正文

【科研】想学习的琐碎知识点-不断更新

news 2025/10/31 12:55:32

文章目录

- 1. 稀疏注意力机制
- 2. MoE
- 3. 生成式方法
- 4. 目前llm的框架
- 5. 注意力
- 6. 增量模型
- 7.知识蒸馏加速模型
- 8.余量批处理（Leftover Batching）机制
- 9. 硬标签蒸馏（Hard Distillation）替代软标签
10.RAG chunk_size和向量

1. 稀疏注意力机制

Kirstain et al. (2021) 提出了 s2e-coref，使用 LongFormer（Beltagy et al., 2020）稀疏注意力机制来减少 SpanBERT 模型的内存开销。

2. MoE

Otmazgin et al. (2023) 则在同样的架构基础上引入了多专家打分机制，让不同语言类别（如：代词-名词、名词-名词）使用不同的打分器，以提升模型精度。

3. 生成式方法

目前有三类：序列到序列、自回归、dlm

4. 目前llm的框架

encoder-only
…

5. 注意力

利用 Transformer 对每个“新提及”和“已有 cluster”做注意力匹配
什么都可以和注意力相结合

6. 增量模型

一边读文章，一边动态判断“新的提及”属于哪个组
更快、更节省内存、更接近人类习惯
增量式 = “一边读一边决定”，而不是“看完全文再来分析”。

7.知识蒸馏加速模型

用 LingMess 作为教师模型，对 12 万+ 未标注新闻数据进行蒸馏，
生成轻量版学生模型（DistilRoBERTa + s2e架构），
实现速度提升 29 倍、参数减少 80%，精度仅下降约 1%。

8.余量批处理（Leftover Batching）机制

将长文档的“满段”和“剩余段”分批编码，
减少填充计算（padding）从 34.7% → 0.6%，
进一步提升 GPU 利用率和推理速度。

🧩 含义：
在处理文本时，模型会把很多文档“打包”一起算，以提高效率，这叫批处理（batching）。
但文本长度不一样，会导致有些地方“空着”——模型仍然要计算这些空位（称为 padding 填充），浪费算力。

📊 F-COREF 的改进：

把“完整段落”和“剩余部分”分开处理，

减少无效计算（padding从34.7%降到0.6%），

相当于让GPU只算有内容的地方，效率暴增。

💬 类比：
以前一个教室里学生高矮不齐，老师要照顾每个人；
现在把同高度的人分班，教学效率更高。

9. 硬标签蒸馏（Hard Distillation）替代软标签

教师生成“银标注”而非传递 logits，
避免指代不一致问题（如非传递性），
提高学生模型的稳定性与泛化能力。

用“软标签”会让学生模型学得混乱（比如A和B都半对半错），
所以改用“硬标签”，让模型学习更稳定、结果更一致。
他们称这种“由大模型生成伪标签再训练小模型”的方式为银标注（silver labels）。

知识蒸馏中软硬标签是什么，太重要了，经常被问到。

10.RAG chunk_size和向量

文档分块（RAG）
512～1024 token
加 overlap

http://www.dtcms.com/a/550287.html

相关文章：

（根号分治、sosdp）洛谷 P10408 Apple / P7842 探险者笔记 III 题解

SCADA软件GENESIS64：基于Web的集中式工程管理平台

专注江苏网站建设五华网站建设优帮云

如何查询网站域名备案重庆微信网站建设多少钱

Apache Doris 4.0 版本正式发布：全面升级 AI 与搜索能力，强化离线计算

苏州网站建设工作室主要的网站开发技术

实现 “先排除数组中对象的 showTiltle: true 字段，再判断两个数组的对象内容是否完全相同（不考虑顺序、只关注对象值和增删和值的变化）”

织梦cms做好的网站怎样上传到服务器做企业网站的步骤

个人备案网站改企业备案网上卡片制作

h5游戏免费下载：打喷嚏的喷火龙

网站开发中网页打印网站开发维护运维

C语言了解一下回调函数(钩子函数)的使用

网站制作内容在线网站制作系统源码

校园微网站建设方案ppt模板下载文本编辑器网站

长沙便宜做网站帝国cms网站地图生成

软件测试大赛赛前培训【Web测试】

解决Docker Buildx导致镜像拉取失败的问题

网站建设对电子商务中的作用网上销售哪些平台免费

信贷员在哪个网站做推广陕西城乡住房建设厅网站

从哪看出网站的建站公司php网站开发工程

zabbix 模板监控项图形

不联网环境docker安装及python示例镜像

10.30 MySQL数据库基础

网站流量到底怎样赚钱的住建部2022年执行的新规范

做番号网站犯法吗利州区住房和城乡建设部网站

Spring Boot Web开发篇：构建RESTful API

跨越时间的鸿沟：解构 Rust 异步编程中的生命周期挑战

网站的建设及维护报告2018年网站建设发言

珠海网站开发排名江苏南京今天的新消息

免费模型网站信息公司网站建设方案游戏