当前位置: 首页 > news >正文

王树森推荐系统公开课 排序02:Multi-gate Mixture-of-Experts (MMoE)

专家模型

与上一节相同,模型的输入是一个向量,包含用户特征物品特征统计特征场景特征,把向量输入三个神经网络,三个神经网络都是由很多全连接层组成,但是并不共享参数,三个神经网络各输出一个向量,分别记作 x 1 x_1 x1 x 2 x_2 x2 x 3 x_3 x3。这三个神经网络被叫作专家,就是 Mixture-of-Experts 中的 Experts。实践中通常不止使用三个专家,这是一个超参数,需要手动调整,通常会试一试四个、八个。
上文输入的向量还会输入另外两一个神经网络,在神经网络的最后加一个 Softmax 激活函数,输出一个三维的向量,之后会作为权重与 x x x 向量加权平均。由于是 Softmax 的输出,向量的三个元素都大于 0,且总和为 1。
在这里插入图片描述

在这里插入图片描述

极化现象

极化(polarize):Softmax 的输出值有一个接近于 1,其余均接近 0。这样没有使所有专家融合,只使用了一个专家。我们不希望这种情况出现。

解决极化问题

一种方法是在 Softmax 的输出使用 dropout,输出的 n n n 个数值被 mask 的概率都是 10%,这样每个专家被随机丢弃的概率都是 10%

注意

MMoE 不一定能提升,有人用了有提升,有人则没有提升,可能是实现的不够好,可能是不适用于特定的业务场景。

http://www.dtcms.com/a/198484.html

相关文章:

  • oracle 资源管理器的使用
  • Java IO及Netty框架学习小结
  • 游戏服务器之聊天频道设计
  • YOLOv5目标构建与损失计算
  • C#里与嵌入式系统W5500网络通讯(2)
  • (二十一)Java集合框架源码深度解析
  • 推理大模型与普通大模型的区别是什么?
  • 程序代码篇---ESP32的数据采集
  • Fine-Tuning Llama2 with LoRA
  • imx6ULL从应用程序到驱动程序
  • 【图像处理基石】OpenCV中都有哪些图像增强的工具?
  • 跨平台多用户环境下PDF表单“序列号生成的服务器端方案“
  • 大语言模型上下文长度:发展历程、局限与技术突破
  • INA226 高侧/低侧测量、双向电流/功率监视器,具有I2C兼容接口
  • 数字格式化库 accounting.js的使用说明
  • 什么是时间戳?怎么获取?有什么用
  • Java求职面试:从基础到复杂场景的技术深度解析
  • 【android bluetooth 协议分析 01】【HCI 层介绍 6】【WriteLeHostSupport命令介绍】
  • JVM如何处理多线程内存抢占问题
  • 王者荣耀游戏测试场景题
  • 上位机知识篇---流式Web服务器模式的实现
  • 为什么需要加密机服务?
  • 大模型deepseek如何助力数据安全管理
  • 使用国内源加速Qt在线安装
  • C++笔试题(金山科技新未来训练营):
  • 基于CNN的猫狗识别(自定义CNN模型)
  • SpringBoot快速上手
  • Spring AI 从入门到精通
  • 07、基础入门-SpringBoot-自动配置特性
  • Python Logging 模块完全指南