当前位置: 首页 > news >正文

【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:
2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

在这里插入图片描述

在这里插入图片描述

http://www.dtcms.com/a/64646.html

相关文章:

  • L1-054 福到了
  • Vue3 Tree-Shaking深度解析:原理剖析与最佳实践指南
  • 随机快速排序
  • 纯前端全文检索的两种实现方案:ElasticLunr.js 和 libsearch
  • 使用 kubectl cp 命令可以在 Kubernetes Pod 和本地主机之间拷贝文件或文件夹
  • 破局者登场:中国首款AI原生IDE Trae深度解析--开启人机协同编程新纪元
  • G-Star 公益行 | 温暖相约 3.30 上海「开源×AI 赋能公益」Meetup
  • Python和Docker实现AWS ECR/ECS上全自动容器化部署网站前端
  • Manus(一种AI代理或自动化工具)与DeepSeek(一种强大的语言模型或AI能力)结合使用任务自动化和智能决策
  • 【蓝桥杯单片机】第十一届省赛
  • 【算法day7】 Z 字形变换 (O2算法思路整理)
  • C语言实现斐波那契数列
  • 在知识的旅途中,奔赴导游职业资格考试的星辰大海
  • 嵌入式软件测试的东方智慧:WinAMS工具的技术哲学与实践启示——一名汽车电子工程师的七年工具演进观察
  • VSCode集成C语言开发环境
  • 力扣1251年
  • SAIL-RK3576核心板应用方案——无人机视觉定位与地面无人设备通信控制方案
  • 密闭空间可燃气体监测终端:守护城市命脉,智驭燃气安全!
  • Agisoft Metashape 创建分块建模
  • Servlet知识点之Parameter和Attribute
  • 设计模式-观察者模式、状态模式
  • qt5中使用中文报错error: C2001: 常量中有换行符
  • 股票-K线
  • 安装oVirt环境
  • 测试之 Bug 篇
  • 【net1】tcp,route,iptables,macvlan
  • C语言每日一练——day_5
  • Windows中的用户变量和系统变量
  • 【写作模板】JosieBook的写作模板
  • 浏览器控制台的特殊执行方式,暂存变量的作用域 和 同步/异步行为解释