当前位置: 首页 > news >正文

王树森推荐系统公开课 排序02:Multi-gate Mixture-of-Experts (MMoE)

专家模型

与上一节相同,模型的输入是一个向量,包含用户特征物品特征统计特征场景特征,把向量输入三个神经网络,三个神经网络都是由很多全连接层组成,但是并不共享参数,三个神经网络各输出一个向量,分别记作 x 1 x_1 x1 x 2 x_2 x2 x 3 x_3 x3。这三个神经网络被叫作专家,就是 Mixture-of-Experts 中的 Experts。实践中通常不止使用三个专家,这是一个超参数,需要手动调整,通常会试一试四个、八个。
上文输入的向量还会输入另外两一个神经网络,在神经网络的最后加一个 Softmax 激活函数,输出一个三维的向量,之后会作为权重与 x x x 向量加权平均。由于是 Softmax 的输出,向量的三个元素都大于 0,且总和为 1。
在这里插入图片描述

在这里插入图片描述

极化现象

极化(polarize):Softmax 的输出值有一个接近于 1,其余均接近 0。这样没有使所有专家融合,只使用了一个专家。我们不希望这种情况出现。

解决极化问题

一种方法是在 Softmax 的输出使用 dropout,输出的 n n n 个数值被 mask 的概率都是 10%,这样每个专家被随机丢弃的概率都是 10%

注意

MMoE 不一定能提升,有人用了有提升,有人则没有提升,可能是实现的不够好,可能是不适用于特定的业务场景。

相关文章:

  • oracle 资源管理器的使用
  • Java IO及Netty框架学习小结
  • 游戏服务器之聊天频道设计
  • YOLOv5目标构建与损失计算
  • C#里与嵌入式系统W5500网络通讯(2)
  • (二十一)Java集合框架源码深度解析
  • 推理大模型与普通大模型的区别是什么?
  • 程序代码篇---ESP32的数据采集
  • Fine-Tuning Llama2 with LoRA
  • imx6ULL从应用程序到驱动程序
  • 【图像处理基石】OpenCV中都有哪些图像增强的工具?
  • 跨平台多用户环境下PDF表单“序列号生成的服务器端方案“
  • 大语言模型上下文长度:发展历程、局限与技术突破
  • INA226 高侧/低侧测量、双向电流/功率监视器,具有I2C兼容接口
  • 数字格式化库 accounting.js的使用说明
  • 什么是时间戳?怎么获取?有什么用
  • Java求职面试:从基础到复杂场景的技术深度解析
  • 【android bluetooth 协议分析 01】【HCI 层介绍 6】【WriteLeHostSupport命令介绍】
  • JVM如何处理多线程内存抢占问题
  • 王者荣耀游戏测试场景题
  • 证监会副主席李明:近期将出台深化科创板、创业板改革政策措施
  • 大学2025丨苏大教授王尧:文科最大的危机是阐释世界的能力弱化
  • 大学2025丨专访西湖大学副校长邓力:如何才能培养“不惧未知”的创新者
  • “马上涨价”再到“吞下关税”,美政策让沃尔玛“输两次”
  • 菲律宾选举委员会公布中期选举结果,马科斯阵营选情未达预期
  • 马上评|科学红毯,让科学家成为“最亮的星”