当前位置: 首页 > news >正文

【AI学习】关于Kimi的MoBA

一直想学习一下这个注意力机制,没顾上

先摘录相关的一点信息,作为备忘:
2 月 18 日,在 DeepSeek 发布新作 NSA(全称)时,Kimi 也发布了一个稀疏注意力架构,叫 MoBA(全称),二者都对传统的 Transformer 注意力机制发起了挑战,这两天在知乎站内引起了热烈的技术讨论,包括苏剑林、章明星在内的多名技术大佬纷纷下场答疑解惑。

其中MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」。也许就像【ZHANG Mingxing】说的,「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。」

在这里插入图片描述

在这里插入图片描述

相关文章:

  • L1-054 福到了
  • Vue3 Tree-Shaking深度解析:原理剖析与最佳实践指南
  • 随机快速排序
  • 纯前端全文检索的两种实现方案:ElasticLunr.js 和 libsearch
  • 使用 kubectl cp 命令可以在 Kubernetes Pod 和本地主机之间拷贝文件或文件夹
  • 破局者登场:中国首款AI原生IDE Trae深度解析--开启人机协同编程新纪元
  • G-Star 公益行 | 温暖相约 3.30 上海「开源×AI 赋能公益」Meetup
  • Python和Docker实现AWS ECR/ECS上全自动容器化部署网站前端
  • Manus(一种AI代理或自动化工具)与DeepSeek(一种强大的语言模型或AI能力)结合使用任务自动化和智能决策
  • 【蓝桥杯单片机】第十一届省赛
  • 【算法day7】 Z 字形变换 (O2算法思路整理)
  • C语言实现斐波那契数列
  • 在知识的旅途中,奔赴导游职业资格考试的星辰大海
  • 嵌入式软件测试的东方智慧:WinAMS工具的技术哲学与实践启示——一名汽车电子工程师的七年工具演进观察
  • VSCode集成C语言开发环境
  • 力扣1251年
  • SAIL-RK3576核心板应用方案——无人机视觉定位与地面无人设备通信控制方案
  • 密闭空间可燃气体监测终端:守护城市命脉,智驭燃气安全!
  • Agisoft Metashape 创建分块建模
  • Servlet知识点之Parameter和Attribute
  • 七部门:进一步增强资本市场对于科技创新企业的支持力度
  • 多条跨境铁路加速推进,谁是下一个“超级枢纽”?
  • 乌总统:若与普京会谈,全面停火和交换战俘是主要议题
  • 国内首例侵入式脑机接口系统前瞻性临床试验:受试者已能用意念玩游戏
  • 汇源果汁发文:经营情况一切正常
  • 著名文物鉴赏家吴荣光逝世,享年78岁