当前位置: 首页 > news >正文

主流大模型采用的架构、注意力机制、位置编码等汇总表

记录下主流大模型的一些核心知识点,包括:

  • 架构
  • 注意力机制
  • 位置编码
  • 归一化
  • 激活函数
  • 模型参数
    在这里插入图片描述
    在这里插入图片描述

表中的一些模型已经是很久之前的了,比如表中并未收入 DeepSeek V3 中使用的MLA的注意力机制。先占个位,后续如果有更新的汇总表再来更新吧。

参考资料

https://blog.csdn.net/m0_53162279/article/details/142830585

相关文章:

  • 【SECS】初识SECS协议
  • MiniRAG检索流程详细图解
  • #VCS# 关于 +incdir+xxx 编译选项的注意点
  • #前端js发异步请求的几种方式
  • 【AI语音】edge-tts实现文本转语音,免费且音质不错
  • 指针 --1
  • RS232转Profinet网关技术,检漏仪新篇章!
  • 深度融合华为鸿蒙生态,嘀嗒出行重构顺风车出行新体验
  • 「HTML5+Canvas实战」星际空战游戏开发 - 纯前端实现 源码即开即用【附演示视频】
  • 18-背景渐变与阴影(CSS3)
  • C++ | constexpr
  • Linux服务器怎样根据端口找到对应启动的服务
  • TCSVT审稿学习笔记
  • 3.28-2 jmeter读取mysql
  • spring @SpringBootApplication 注解详解
  • 使用AURIX ADS部署tensorflow lite到Tricore TC2XX/TC3XX
  • EMC知识学习三
  • ecovadis评估有什么流程?对企业发展的重要意义
  • HTML应用指南:利用GET请求获取全国无印良品门店位置信息
  • 19726 星际旅行
  • “80后”萍乡市安源区区长邱伟,拟任县(区)委书记
  • 尹锡悦宣布退出国民力量党
  • 一涉嫌开设赌场的网上在逃人员在山东威海落网
  • 独家 |《苏州河》上海上演,编剧海飞:上海的风能吹透我
  • 郑钦文憾负高芙,止步WTA1000罗马站四强
  • 董军同德国国防部长举行会谈