广告推荐系统中模型训练中模型的结构信息、Dense数据、Sparse数据
下面结合广告推荐系统常见的深度学习模型(比如 Wide & Deep、DeepFM、Two-Tower 等),介绍一下“模型的结构信息”、Dense 数据和 Sparse 数据在训练过程中的角色及处理方式。
-
模型结构信息
- 输入层(Input Layer)
• Sparse 输入:各类离散高维特征(用户 ID、广告 ID、性别、兴趣标签、地域等)
• Dense 输入:各类连续或低维数值特征(用户年龄、广告曝光时长、历史点击率、价格、设备指标等) - Embedding 层(仅对 Sparse 特征)
• 把每个稀疏 one-hot/multi-hot 特征映射到一个低维实数向量。
• Embedding lookup 后,得到每个类别特征的 d 维稠密向量。 - 特征交叉(可选)
• Wide 组件:对原始特征或特征交叉做线性模型;
• Deep 组件:把多个 embedding 向量拼接(concat)或做内积、FM 二阶交叉,再进入 MLP。 - MLP(全连接网络层)
• 若干层全连接 + 激活(ReLU、PReLU、Dice 等),用于学习复杂非线性特征交互。 - 输
- 输入层(Input Layer)