当前位置: 首页 > news >正文

【科研】想学习的琐碎知识点-不断更新

文章目录

    • 1. 稀疏注意力机制
    • 2. MoE
    • 3. 生成式方法
    • 4. 目前llm的框架
    • 5. 注意力
    • 6. 增量模型
    • 7.知识蒸馏加速模型
    • 8.余量批处理(Leftover Batching)机制
    • 9. 硬标签蒸馏(Hard Distillation)替代软标签
  • 10.RAG chunk_size和向量

1. 稀疏注意力机制

Kirstain et al. (2021) 提出了 s2e-coref,使用 LongFormer(Beltagy et al., 2020)稀疏注意力机制来减少 SpanBERT 模型的内存开销。

2. MoE

Otmazgin et al. (2023) 则在同样的架构基础上引入了多专家打分机制,让不同语言类别(如:代词-名词、名词-名词)使用不同的打分器,以提升模型精度。

3. 生成式方法

目前有三类:序列到序列、自回归、dlm

4. 目前llm的框架

encoder-only

5. 注意力

利用 Transformer 对每个“新提及”和“已有 cluster”做注意力匹配
什么都可以和注意力相结合

6. 增量模型

一边读文章,一边动态判断“新的提及”属于哪个组
更快、更节省内存、更接近人类习惯
增量式 = “一边读一边决定”,而不是“看完全文再来分析”。

7.知识蒸馏加速模型

用 LingMess 作为教师模型,对 12 万+ 未标注新闻数据进行蒸馏,
生成轻量版学生模型(DistilRoBERTa + s2e架构),
实现 速度提升 29 倍、参数减少 80%,精度仅下降约 1%。

8.余量批处理(Leftover Batching)机制

将长文档的“满段”和“剩余段”分批编码,
减少填充计算(padding)从 34.7% → 0.6%,
进一步提升 GPU 利用率和推理速度。

🧩 含义:
在处理文本时,模型会把很多文档“打包”一起算,以提高效率,这叫批处理(batching)。
但文本长度不一样,会导致有些地方“空着”——模型仍然要计算这些空位(称为 padding 填充),浪费算力。

📊 F-COREF 的改进:

把“完整段落”和“剩余部分”分开处理,

减少无效计算(padding从34.7%降到0.6%),

相当于让GPU只算有内容的地方,效率暴增。

💬 类比:
以前一个教室里学生高矮不齐,老师要照顾每个人;
现在把同高度的人分班,教学效率更高。

9. 硬标签蒸馏(Hard Distillation)替代软标签

教师生成“银标注”而非传递 logits,
避免指代不一致问题(如非传递性),
提高学生模型的稳定性与泛化能力。

用“软标签”会让学生模型学得混乱(比如A和B都半对半错),
所以改用“硬标签”,让模型学习更稳定、结果更一致。
他们称这种“由大模型生成伪标签再训练小模型”的方式为银标注(silver labels)。

知识蒸馏中软硬标签是什么,太重要了,经常被问到。

10.RAG chunk_size和向量

文档分块(RAG)
512~1024 token
加 overlap

http://www.dtcms.com/a/550287.html

相关文章:

  • (根号分治、sosdp)洛谷 P10408 Apple / P7842 探险者笔记 III 题解
  • SCADA软件GENESIS64:基于Web的集中式工程管理平台
  • 专注江苏网站建设五华网站建设 优帮云
  • 如何查询网站域名备案重庆微信网站建设多少钱
  • Apache Doris 4.0 版本正式发布:全面升级 AI 与搜索能力,强化离线计算
  • 苏州网站建设工作室主要的网站开发技术
  • 实现 “先排除数组中对象的 showTiltle: true 字段,再判断两个数组的对象内容是否完全相同(不考虑顺序、只关注对象值和增删和值的变化)”
  • 织梦cms做好的网站怎样上传到服务器做企业网站的步骤
  • 个人备案网站改企业备案网上卡片制作
  • h5游戏免费下载:打喷嚏的喷火龙
  • 网站开发中网页打印网站开发维护运维
  • C语言 了解一下回调函数(钩子函数)的使用
  • 网站制作内容在线网站制作系统源码
  • 校园微网站建设方案ppt模板下载文本编辑器 网站
  • 长沙便宜做网站帝国cms网站地图生成
  • 软件测试大赛赛前培训【Web测试】
  • 解决Docker Buildx导致镜像拉取失败的问题
  • 网站建设对电子商务中的作用网上销售哪些平台免费
  • 信贷员在哪个网站做推广陕西城乡住房建设厅网站
  • 从哪看出网站的建站公司php网站开发工程
  • zabbix 模板 监控项 图形
  • 不联网环境docker安装及python示例镜像
  • 10.30 MySQL数据库基础
  • 网站流量到底怎样赚钱的住建部2022年执行的新规范
  • 做番号网站犯法吗利州区住房和城乡建设部网站
  • Spring Boot Web开发篇:构建RESTful API
  • 跨越时间的鸿沟:解构 Rust 异步编程中的生命周期挑战
  • 网站的建设及维护报告2018年网站建设发言
  • 珠海网站开发排名江苏南京今天的新消息
  • 免费模型网站信息公司网站建设方案 游戏