当前位置: 首页 > news >正文

Transformer以及BERT阅读参考博文

Transformer以及BERT阅读参考博文

Transformer学习:

已有博主的讲解特别好了:

  1. 李沐:Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili
  2. 知乎:Transformer模型详解(图解最完整版) - 知乎

个人杂想:

  1. Q K T ∗ V QK^{T}*V QKTV中, Q K T QK^T QKT其实可以理解为相似性矩阵S,那么 S ∗ V S*V SV其实就相当于相似性矩阵对原始的嵌入加权求和。这感觉就是GAT的一个思想源泉。
  2. 残差连接和concat挺重要的

BERT

  1. BERT模型架构详解 - 知乎

  2. 李沐:BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili

相关文章:

  • 浏览器安全学习
  • NLLB 与 ChatGPT 双向优化:探索翻译模型与语言模型在小语种应用的融合策略
  • Windows 图形显示驱动开发-WDDM 2.0 -Gpu段
  • pip安装国内镜像加速方法
  • 【操作系统】操作系统结构
  • 51单片机09 DS1302时钟
  • 人工智能之数学基础:线性空间
  • DeepSeek官方发布R1模型推荐设置
  • 重生之我在异世界学编程之C语言:深入指针篇(上)
  • 大数据SQL调优专题——Hive执行原理
  • Nginx--日志(介绍、配置、日志轮转)
  • Qt QOpenGLShaderProgram详解
  • 完美解决 error:0308010C:digital envelope routines::unsupported
  • ArcGIS Pro显示缓存空间不足导致编辑或加载数据显示不完全
  • duckdb导出Excel和导出CSV速度测试
  • 微信小程序 - 分包加载
  • 黑魔法(BMD)存储卡格式化后的恢复方法
  • 【IEEE/EI/CPCI检索】2025年第四届信号处理、信息系统与网络安全国际会议(SPISCS 2025)
  • vLLM启用笔记
  • 常用排序算法
  • 家里笔记本做网站 怎么解析/万词优化
  • 哪个威客网站做翻译最赚钱/东莞网站推广公司黄页
  • 做写字楼用哪个网站更好/免费发布信息
  • 河北网站优化/搜外seo
  • 建设部工程业绩网站/2021搜索引擎排名
  • 长沙建站模板大全/线上推广是什么意思