【科研】想学习的琐碎知识点-不断更新
文章目录
- 1. 稀疏注意力机制
- 2. MoE
- 3. 生成式方法
- 4. 目前llm的框架
- 5. 注意力
- 6. 增量模型
- 7.知识蒸馏加速模型
- 8.余量批处理(Leftover Batching)机制
- 9. 硬标签蒸馏(Hard Distillation)替代软标签
 
- 10.RAG chunk_size和向量
1. 稀疏注意力机制
Kirstain et al. (2021) 提出了 s2e-coref,使用 LongFormer(Beltagy et al., 2020)稀疏注意力机制来减少 SpanBERT 模型的内存开销。
2. MoE
Otmazgin et al. (2023) 则在同样的架构基础上引入了多专家打分机制,让不同语言类别(如:代词-名词、名词-名词)使用不同的打分器,以提升模型精度。
3. 生成式方法
目前有三类:序列到序列、自回归、dlm
4. 目前llm的框架
encoder-only
 …
5. 注意力
利用 Transformer 对每个“新提及”和“已有 cluster”做注意力匹配
 什么都可以和注意力相结合
6. 增量模型
一边读文章,一边动态判断“新的提及”属于哪个组
 更快、更节省内存、更接近人类习惯
 增量式 = “一边读一边决定”,而不是“看完全文再来分析”。
7.知识蒸馏加速模型
用 LingMess 作为教师模型,对 12 万+ 未标注新闻数据进行蒸馏,
 生成轻量版学生模型(DistilRoBERTa + s2e架构),
 实现 速度提升 29 倍、参数减少 80%,精度仅下降约 1%。
8.余量批处理(Leftover Batching)机制
将长文档的“满段”和“剩余段”分批编码,
 减少填充计算(padding)从 34.7% → 0.6%,
 进一步提升 GPU 利用率和推理速度。
🧩 含义:
 在处理文本时,模型会把很多文档“打包”一起算,以提高效率,这叫批处理(batching)。
 但文本长度不一样,会导致有些地方“空着”——模型仍然要计算这些空位(称为 padding 填充),浪费算力。
📊 F-COREF 的改进:
把“完整段落”和“剩余部分”分开处理,
减少无效计算(padding从34.7%降到0.6%),
相当于让GPU只算有内容的地方,效率暴增。
💬 类比:
 以前一个教室里学生高矮不齐,老师要照顾每个人;
 现在把同高度的人分班,教学效率更高。
9. 硬标签蒸馏(Hard Distillation)替代软标签
教师生成“银标注”而非传递 logits,
 避免指代不一致问题(如非传递性),
 提高学生模型的稳定性与泛化能力。
用“软标签”会让学生模型学得混乱(比如A和B都半对半错),
 所以改用“硬标签”,让模型学习更稳定、结果更一致。
 他们称这种“由大模型生成伪标签再训练小模型”的方式为银标注(silver labels)。
知识蒸馏中软硬标签是什么,太重要了,经常被问到。
10.RAG chunk_size和向量
文档分块(RAG)
 512~1024 token
 加 overlap
