51c大模型~合集160
自己的原文哦~ https://blog.51cto.com/whaosoft/14066165
#智元灵渠OS
开源!智元机器人正式发布首个xx操作系统框架
稚晖君在WAIC主论坛发布“灵渠OS”开源计划!
2025 世界人工智能大会暨人工智能全球治理高级别会议于 7 月 26 日在上海世博中心举办。本届大会主论坛以 “技术 — 合作 — 普惠” 的三层递进结构,汇聚全球人工智能顶尖专家,从技术演进、全球协同、社会赋能三重视角解读 AI 未来发展的时代价值。智元机器人联合创始人兼 CTO 彭志辉(稚晖君)作为唯一的xx智能代表,携灵犀 X2 人形机器人登场,以一场 “从工具到伙伴:人机协作的新边界” 为主题的人机对话惊艳全场,并重磅发布业界首个xx智能操作系统参考框架 “智元灵渠 OS” 开源计划,携手产业界共建开放生态。
人机对话破界:灵犀 X2 演绎 “伙伴级” 交互
在 WAIC 2025 主论坛上,稚晖君与灵犀 X2 的对话成为全场焦点。该对话围绕 “机器人是工具还是伙伴”“人机协作的核心挑战是什么”“人机协作的终极目标是什么” 等深刻话题展开。作为世界人工智能大会举办以来首位以 “嘉宾” 身份登上主论坛的机器人,灵犀 X2 凭借 “本体 + 运动 / 交互 / 作业智能” ,展现出超乎期望的表现:丝滑流畅的肢体动作搭配自主生成的高质量问答,让人耳目一新。
当稚晖君问及 “人机协作中最关键的挑战” 时,灵犀 X2 回应:“技术当然重要,但更关键是‘理解’,人类对机器的理解,和我们试图去理解人类的意图。真正协作是建立在‘共识’的基础上。”拟人化的表达与动态交互,直观诠释了xx智能从 “工具属性” 向 “伙伴关系” 的跨越。更令人惊喜的是,环节结束时,检测到电量亏损的灵犀 X2 突然 “吐槽”:“下次对话前,可以先让我充个电吗?深度对话还挺耗电的。” 引发现场一片掌声和欢笑,生动展现了人机交互的温度与活力。
这场对话不仅是技术成果的展示,更传递出智元对人机关系的前瞻性思考:当机器人具备理解、预判、协同的能力,人机协作将突破传统边界,在工业、家庭、服务等场景创造全新价值,在此同时,我们也要去构建人机信任的边界。人工智能是年轻的事业,也是年轻人的事业。作为xx行业的 “年轻人”,智元机器人致力于打造有生命的科技,构建有温度、有价值、可信赖的人机协作生态。稚晖君表示:“这会是一段漫长而艰难的旅程,但智元会坚持深耕,也希望与更多同行者一起,用理性、热情与使命感,把这条路走得更稳、更远。”
发布“智元灵渠 OS”开源计划:构建xx智能产业生态基石
在全场瞩目下,稚晖君通过灵犀 X2 正式发布 “智元灵渠 OS” 开源计划 —— 这是业界首个xx智能操作系统参考框架,旨在推动当前机器人系统生态融合、xx智能新技术突破。
据悉,“智元灵渠 OS” 将以 “分层开源、共建共享” 模式推进:底层基于智元已开源的高性能中间件 AimRT持续增强,提供稳定、高效的分布式群体实时通信、硬件抽象等基础服务框架;上层开放智能体服务框架,支持交互、作业、运动等智能基座模型的标准化对接,降低应用门槛;同时,提供丰富的工具链,涵盖开发调试、仿真验证、部署管理、数据录制等能力,助力开发者快速构建从虚拟仿真到实体部署的技术闭环。
该计划将于今年第四季度开始逐步开源,与产业界开源共建xx智能操作系统生态,聚力突破xx智能系统在智能化提升、群体协同、云边端融合等新技术上的挑战。如同 PC 时代的 Windows、移动互联网时代的鸿蒙,xx智能操作系统承上启下,南向适配多样化xx硬件、北向支撑丰富的智能应用,是xx智能机器人全栈的核心,也是产业生态的基础。智元机器人已经开源并持续增强高性能中间件 AimRT,未来将面向机器人持续增强基础操作系统,开源共建智能体服务框架和工具链,支持xx智能机器人产业加速发展。
从主论坛的人机对话到开源生态的布局,智元机器人以 WAIC 2025 为舞台,不仅展现了xx智能的硬核实力,更以开放姿态引领行业协同发展,为xx智能规模化商业落地注入强劲动能。
#聊聊 MoE 模型的量化
众所周不知, MoE 模型由于内存和计算开销较大,在部署时面临巨大挑战主要就是非常高的显存需求。
简单说就是,放不下。
但是,又不用都算。
前面我们的几篇笔记都是在解决这个问题,如 笔记:ktransformer/llama.cpp/vllm + int4 671B DeepSee...笔记:聊聊 MoE 负载调度笔记:再聊 MoE 中的异构资源调度 等,大部分是通过 GPU CPU 协同工作来推动 MoE 模型在资源受限设备上的卸载部署方法。但是卸载方法的运算速度瓶颈就很受限于 CPU。所以还有另一个思路就是 量化 ,本质上是压缩技术,以降低内存和计算需求。
MoE 模型在 4 位 3 位量化时会遭受不可忽视的精度损失,这在 dense 模型时相对没有那么大的问题。对 MoE 模型进行量化会带来一些独特挑战,这是因为其稀疏、动态的计算模式。我们都知道的,传统的激活量化方法是没有考虑依赖门控而产生的结构性稀疏专家异常值的,所以目前之间对 MoE 进行量化就肯定会导致不稳定的量化步骤。这些特点会在后边的论文中得到各种体现。在这篇评测中 Evaluating Quantized Large Language Models(arXiv:2402.18158),亦有报告。
以下几篇相关论文差不多都是 25年03-07 区间的新文章,发现和方法都很像,名字也都很像,算是一个集中爆发期。很像去年的 量化那些事之KVCache的量化。
- QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models, arXiv:2310.16795, #GPTQ作者团队 #1600B MoE 模型
- MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness, arXiv:2503.21135 #跨数据校准 #混合精度
- MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design, arXiv:2505.05799 #混合精度 #根据 Roofline 选择精度 #细分 FFN 模块量化
- MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance, arXiv:2505.03804 #无监督校验数据生成
- EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization, arXiv:2506.13329 #PTQ 优化 #INT3 优化 #KL 散度量化 loss
- MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators, arxiv:2504.02658 #INT3优化 #低秩补偿
- Fate: Fast Edge Inference of Mixture-of-Experts Models via Cross-Layer Gate, arXiv:2502.12224 #MoE 调度 #混合精度量化 #PD 区分量化
- MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts, arXiv:2506.07533 #利用门控解决 KVCache 压缩问题
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models
这篇是今天几篇论文中最早的一篇,23 年的 arxiv,24 年 MLSys 录用, 前瞻性很强 ,作者是 GPTQ 的作者。
主要优化的模型:SwitchTransformer-c2048。
GPTQ 是当下很多模型量化的首选方法之一,广受欢迎。本文相当于是对 GPTQ 量化方法的一种的实践。
这篇文章使用的模型是一个非常不常见的极大模型,名叫 SwitchTransformer-c2048,有 1.6 万亿个参数,也就是 1600B 的模型,存 fp32 的话需要 3.2TB 的显存。我们很熟悉的 DeepSeek R1 满血版模型,是 671B 的,虽然在一个量级上,但是比这个小,最近的 Kimi K2 模型 1000B 也算是赶上来了。总之这些尺寸的模型,量化是很直观的优化方法。
这个模型是个典型的 MoE 模型,模型名称中的 c2048 表示的就是模型中包含 2048 个专家,是 google 在 2021 年提出的,一个是出来的早,另一个是足够大(优化空间大),后边还有文章中也用的这个模型作为优化目标。(怎么说呢,有点像 opt?)
所以 QMoE 包含一种可扩展的 动态稀疏量化框架 算法,将1.6万亿参数的Switch Transformer-C 2048模型压缩到小于 160GB(压缩了 20 倍,bit per weight bpw 是 0.8 ),也就是压缩到每个参数实际占比小于 1 位,同时与定制的 GPU 解码内核协同设计,以实现高效的端到端压缩推理。实际上也不小,不考虑 kvcache 空间的话,如果全部在 GPU 运算那么 80GB 的 A100 也能用两块三块的,也不便宜。
文章中虽然多次提到模型从 GPU 卸载到 CPU 内存中,但是我认为实际上作者使用的方法并没有 offload ,而是都在 GPU 中计算的,并且非专家的层,还是使用的 bf16 ,专家基本上是 2bit 也就是三进制(-1,0,1)这种进制,压缩方法就是用 GPTQ 算法对分组专家进行的处理。(GPTQ 的量化压缩方法中还有一些压缩率和掩码的细节这里不展开了)
那么 0.5 的压缩比是怎么来的?bf16 是非专家层,2bit 是专家,这样也做不到 20 倍加速比呀,所以它有一个 Sub-1-Bit Compression 的提法,这个方法的逻辑是这样的:三进制(-m, 0, m),加上权重通常接近正态分布这一事实,自然会导致量化后出现高稀疏性,即大量的零,这里称为接近 90% 的自然稀疏性。这样的状态可以使用稀疏矩阵乘法的方法进一步优化获得最终小于 1 bit 的 bpw。当然,这样的稀疏化方法因为只保存非零位,和它们的索引位置,因此必须有专门的 sparse gemm 方法也就是 CUDA kernel 来做高效支撑。文章中对 CUDA kernel 的介绍也比较详细。
所以,QMoE 是比较典型的《混合精度量化》MoE 量化方法。
MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness
作者主要来自北大和字节,2505 的文章,很新。
主要优化的模型:OLMoE、MoE-Girl、Qwen-MoE-14B、Qwen1.5-MoE、DeepSeek-MoE-16B。
作者认为现有的量化方法已逐渐将重点从参数缩放转移到数据分布分析上,但是 MoE 模型的模型数据分布和 dense 密集模型完全不同,因为专家利用率是和输入数据分布是有极高相关性的。
我认为本文的核心观察就在于不同的输入数据分布下,专家重要性差异很大。如图 3 所示。在 WikiText2 下,第 28 个专家表现出较高的专家重要性,而在 C4 下,第 28 个专家表现出非常低的重要性。这里长尾分布的横轴代表的是 token 映射,在图二和 III.A 章节中进行的分析,基于这个映射,再获取到的所谓专家重要性。(不过这里我个人是有疑惑的,我并不认为出现多的 token 就一定很重要,出现少的就一定不重要, 或许真理就是掌握在少数人手中的 。所以 我认为这里的专家重要性 expert significance 更像是一个 expert profile )
这表明 MoE 使用不同的专家组合来适应不同的输入数据分布。 而不同的输入数据分布是当前诸多量化方法在量化时进行校验时的核心依赖关系。 例如 GPTQ、SmoothQuant 就是依赖静态的一对一数据-参数映射(即单一模型拟合全局数据分布),这明显是个很大的问题。
所以综合考虑多个输入数据分布下专家的作用已成为一个难题,因此作者提出用多输入数据集拟合成一个联合分布,如下图 4 。这图不是把两个数据集分别作为横轴和纵轴,而是有多个数据集作为 X 轴,专家作为 Y 轴来的。按作者的说法 Z 轴都高的专家肯定是重要的(同理存疑),也就是文中所言专家综合性能。
通过前面的分析,我们发现MoE量化有两个要求(这两个要求是有道理的):1)MoE 需要根据专家的重要性进行专家级别的混合精度量化。2)MoE 需要有动态调整的能力,以适应各种新的输入数据分布,这意味着固定的量化方法不是最优的。所以需要有,多对多映射关系:多个专家协同拟合动态数据分布,参数重要性随专家组合变化。专家间重叠与离散化:专家功能存在重叠,但参数敏感性差异显著,需差异化量化。
我们再来详细看看这个多阶段的量化方法,第一阶段量化策略是专家级别的混合精度基础量化,对于共享专家和重要性高的专家,使用较高的精度(如INT8)进行量化以保持性能;对于重要性低的专家,使用较低的精度(如INT2)进行量化以获得更大的压缩比。“预校准-自适应-微调”三阶段框架,动态数据-多专家映射,通道级量化调整,预校准:基于专家路由概率(输入分布)初始化量化缩放因子;自适应:在线调整专家的量化范围(如根据实时输入动态缩放);微调:通过知识蒸馏修复专家间的交互误差。
MoQa 先使用一般的量化方法进行基础量化,再使用 通道级量化动态调整 专家性能以适应新的分布,也就是多阶段的量化方法。
所以第二阶段利用前面得到的联合数据分布 J,按分布的显著程度(如图 5 中 Z 轴的区间)对不同的专家进行了 INT2、INT4、INT6 和 INT8 四种量化方法的区分,进行了专家级混合精度量化,并将此称为基础量化。
基础量化后,在已知的输入数据分布上,混合专家模型可以在量化损失和压缩率之间实现最优权衡。通道级动态量化调整。通道比专家的粒度要小,就是专家 FFN W1 矩阵的列。
类似 AWQ 的发型权重矩阵中极少数通道(约1%)对量化最为敏感,这会影响性能。因此,选择使用这些通道而非整个专家作为 “可调节开关”,这样可以显著降低动态调整的开销。所以作者 首先计算在新输入数据分布下 MoE 权重的梯度 (也就是根据量化误差 loss 计算的梯度,本质上就是 loss,能够有效地反映通道对量化的敏感度),并根据梯度大小筛选出 1% 最敏感的通道及其索引。现在作者要使用这些通道实现量化调整,其具体的方法是将 1% 的敏感通道择出来使用 fp16 进行计算。因为只有 1%,这种开销可以忽略不计。
MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design
作者主要来自,上海交大,上会 AILab,北大,字节,港中文。2505 的工作。
使用的模型主要包括:DeepSeekV2-Lite,Qwen1.5-MoE,Qwen2-MoE,Mixtral-8×7B。
本文明确的就是对混合精度(异构量化)方案进行加速。作者首先认为因为量化对不同网络结构组件参数的影响不尽相同,loss 都有很大差异(下图 a),所以混合精度计算在准确性方面通常优于均匀精度量化。因为 MoE 模型尤其是混合精度增加的复杂性会导致系统开销增加,这是显而易见的,MoE 本来优化就复杂,混合精度计算量和计算延时还都不一样。所以作者直截了当说他们的目标是 在增强 MoE 模型量化的同时,实现有意义的加速 (这话说的,跟我写博客一样敢说话)。
然后,从硬件角度看,硬件在计算矩阵时的状态内存受限和计算受限,这一般可以有 Roofline 定律来描述(上图 b 左图),同时,作者发现不同的量化方法通过 Roofline 定律可以发现其各种量化方法明显的不同之处,A4 A8 两种方法,明显没有遇到计算墙。而 A16 的两种方法,都撞到计算墙了。A8 应该也要在横轴到 180 的时候撞到计算墙了,只是图上没有画了。同时,专家在计算过程中,在不同的 batch 和不同请求下,激活比例不同,激活比例高的专家计算量大,需要用更小的计算带宽,所以是 W8A8 更加友好。激活比例低的专家相对计算量就低,可以使用小的位制带宽,计算时则可以使用高带宽计算,也就是 W4A16。(不过我感觉这里用 W4A8,也未尝不可)。
基于以上两个发现,在实现简单说,作者使用的方法是对 单个 MoE 块进行了更细粒度的划分 ,称为线性块(这里就是 Gate、Proj_Up、Proj_Down 三个矩阵),不同块中的量化敏感度不同,使用的量化方法不同。同时不同的专家间也使用不同的量化方法,如上一段所示。图 3 则是这样设计的一个整体设计,其实就是 不同 MoE 使用不同的量化方法,不同的块也用不同的量化方法 ,各种组合,动态过程中进行的组合,根据离线的统计、硬件信息,输入特点进行各种预测。同时,本文还有很 solid 的 work,编写了相应的 gemm 算子 kernel,以追求更优的吞吐量性能,作者称之为 GEMM Orchestration 矩阵乘法编排。图 2 是论文中对各种低精度 MoE 模块的计算吞吐量的比较。
MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance
作者主要来自后摩科技和东南大学。2505 的文章,也比较新。
面向的量化场景也是的 PTQ 优化。
主要优化的模型:Qwen-MoE-14B、DeepSeek-MoE-16B、Mixtral-8x7B。
首先作者认为,MoE 模型在量化过程中的 精度损失 与 负载不均衡 问题,注意注意,这里的负载不均衡指的是在量化过程中的负载不均衡,也就是不同的专家对于校准数据集的响应不均衡。 量化时的校验数据集很重要,在 MoE 量化时则更为重要 。而现在的 PTQ 方法通常依赖特定领域的校准数据集。所以负载不足的专家自然接收的校准不足,从而导致显著的量化误差。然后作者提出一个概念,叫做样本与专家之间的 亲和度 ,用来描述这种不平衡性。和前面 MoQa 中的 significance 类似,也是从每个专家的角度来看,样本表现出不同程度的亲和度,也就是样本与其分配专家之间的相关性。
那么,一种直观的方法是通过 从多个领域采样数据来构建一个领域平衡的校准集 ,潜在领域的数量几乎无穷无尽,这种直观的方法是不切实际的。另外一个问题是, 采样数据集还有可能与模型的固有分布不一致 。当然,作者的思路还是构建平衡校验集这个思路,但是没有蛮干,而是使用了采样的方法,文中名叫自采样(Self-Sampling),简单说就是利用大语言模型自己的采样能力来构建校准数据。这里我的理解是从固定的起点开始,让大模型自己自回归运行,得到验证集。固定的起点应该是模型自身的词汇表,自回归运行时会产生分支,一般会选择最优的预测分支,直到 EoS。这中间还有一些路径剪枝的优化方法,目标也是忽略低概率分支。以上就是本文中 EBSS (Expert-Balanced Self-Sampling)的大体思路,论文中形式化了部分公式来证明自己的有效性。我认为这种方法思路来源于弱监督无监督学习,自己监督自己生成数据,再通过这样的数据完成自己的量化过程。
(笔者评论:不过,在后续的实验中,没有更多篇幅介绍生成出来的数据集,或者叫做采样出来的数据集更多的特点了,只在图 4 中有一个 ppl 的描述。其实我倒是很关注每次量化时,真实数据和采样生成数据的数量和比例关系)
然后是亲和度引导量化的方法,这个和前面 MoQa 中的 significance 非常类似,不过这里的亲和度得分就是 MoE Gate 输出的数值, 简单说就是量化过程中将门控系数纳入逐层校准 。
另外,本文这个量化优化方法是可以在其他大多数量化基础上完成的(今天介绍的大部分论文都是这样的),文中主要采用了 AWQ 和 GPTQ 作为基准。
EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization
这篇作者主要来自华为和北大,2507 的文章,非常新。
主要优化的模型是:OLMoE7B,DeepSeek-MoE16B,Mixtral8x7B。
面向的量化场景是:在 W4A4 和极端 W3A4 量化方法(算是较为激进的量化方法)的 PTQ 优化。优化方法比较偏算法底层,其发现和解决方法,都比较有价值。
作者的发现是路由器的专家选择机制对量化引起的对数几率扰动高度敏感。说人话就是,即使门控分数出现微小偏差,也会扰乱前 k 个专家分配逻辑,由于令牌路由错误而降低模型性能,同时很少被激活的专家在参数校准期间数据覆盖不足,导致量化参数估计不准确和较大的量化误差。这些其实在其他几篇论文中也多被发现和提及。
具体方法一,构建一个统一的通道级平滑向量。我们所熟悉的 SmoothQuant 和 OmniQuant 方法中都指出,激活张量中的少数通道通常会呈现出幅度极大的异常值。SmoothQuant 就是通过合并平滑向量技术来缩放激活张量的动态范围。此外,平滑向量可以合并到前面的归一化层中,不会产生额外的计算开销。作者希望在 MoE 结构中得到一个统一的平滑向量,以提高在不同专家间的泛化能力,也就是无论当前 token 将被路由到哪个本地专家,都能抑制激活中与通道相关的极端值。具体方法则是通过对专家特定要求进行逐通道最大化来实现。(对于这个方法,我是存疑的,这种所谓的泛化能力是否会对具体激活时候那个专家的值域而言显得太大了?)
具体方法二,叫做双目标校准策略。出发点是为了在量化后保持路由器专家选择的准确性,通过 loss 函数的设计策略来控制数值精度和路由分布一致,作者认为传统的均方误差目标仅校准量化前后对数幅度的绝对差异,不够好,而使用 KL 散度最小化专家选择概率中的分布差异。(逻辑上没问题,后续的消融实验也有所证明,之所以对 MoE 有效,我理解可能应当是将没有激活的专家中的部分信息也归纳进来一同计算了)
具体方法三,是为了解决 PTQ 中专家激活不平衡问题,我理解这里的问题应该是量化之后门控结果发生了变化,这可能是因为层间量化误差影响了后续层量化专家的选择。我认为这里的核心方法应该是除了校准专家参数,还需要 在 PTQ 过程中校准非专家参数 。这个解决问题的发现和解决方法,我觉得非常很有见地。
MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators
作者主要来自 UIUC,2504 的文章。
主要是针对 INT3 量化场景。
使用的模型是 DeepSeek-MoE(2401),Mixtral - 8×7B。
和前面几篇文章面临的问题是一样的,大部分已有的量化方法,在已有的数据校验集上量化,int3 损失就很大。同时,对于 MoE 模型,INT3 权重量化且批量大小大于 1 的情况下,很难将极端量化的理论节省转化为实际的加速。很多文章确实是这样的,只报告了精度,但是没有报告速度。因为一些硬件的原因,可能低 bit 速度还慢些。
文章中宣称:专家激活频率存在差异(这个其实大家都知道了)。例如,在 DeepSeek-MoE (因为引用的 2401 的 DeepSeek-MoE 论文,所以这个模型是 V1 同期的,)中,同一层中激活频率最高的专家比激活频率最低的专家被激活的次数多11.7倍(人家后续 V2、V3 改进很多)。(文章选择的另外一个模型是 Mixtral - 8×7B,也是一个感觉没有训好的 MoE 模型)
另外一个观察是,INT3 量化能够捕捉到极值,而信息损失主要发生在相对非重要的权重值上。作者认为量化在充分捕捉异常值的同时,牺牲了对中等值的表示作为权衡。
基于这样的发型,作者希望提出一种方法来恢复这些值的信息损失。通过 混合低秩补偿器(lowrank compensation,Exploring post-training quantization in llms from comprehensive study to low rank compensation. AAAI 2024), 增强低比特表达能力,具体说就是将残差矩阵(量化前和量化后的差)进行 SVD 分解,将其中的低秩还原矩阵拿回来补偿以减少量化后的误差。核心方法就是这个了,说的比较简单,不展开了。
Fate: Fast Edge Inference of Mixture-of-Experts Models via Cross-Layer Gate
作者主要来自中山大学、鹏程实验室、华为和港中文。作者团队前面还提出了 Klotski (笔记:聊聊 MoE 负载调度)
面向的场景是,如何把稀疏激活的 MoE 大模型搬到资源受限的边缘设备上,而量化则是文章中的一个点。我认为也挺重要的,就拿过来一起学习一下。
使用的模型是 Qwen1.5-MoE,DeepseekMoE。
因为 Fate 方法是利用相邻层的 gate 输入提前预测下一层会激活的专家,实现高准确率的预取(prefetch),所以针对缓存和加载过程,设计了 定制化的量化策略 ,进一步压缩专家参数体积,提升加载速度。
在 Fate 中,量化使用的是 HQQ 方法,这不是最最重要的。而是围绕什么时间对什么数据采用什么量化方法,做了一套端到端、混合精度的量化、调度协同机制。与前面几个方法不同的是,因为 fate 是 CPU offload 方法,所以 fate 分为 CPU MEM 缓存阶段(统一使用 int4 存储),和实际运算传输阶段。实际运算传输时,又分为 prefill 和 decode。prefill 阶段影响较大,因此会按照受欢迎程度 popular(有点像前面文章的 significance 和 affinity 的概念)排序,将不受欢迎的专家不传 int4 而传 int2 (提前量化好了),受欢迎的还是 int4 传输。decode 阶段一律使用 int4,这是因为在单机场景下,一般 batchsize 为 1,就不区别了。
MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts
本文作者主要来自华中科大和平安科技,2506 的文章。
这篇文章是为了在处理长序列数据时,量化压缩 KVCache 的方法,但是是通过量化感知专家实现的。这篇文章其实不是 MoE 架构的优化,而是借用了 MoE 的特点,利用 MoE 方法中的路由器选择最合适的量化比特宽度。有点像 MoBA 用 MoE 门控选择上下文注意力机制类似。笔记:MoBA 与 Native Sparse Attention