当前位置: 首页 > news >正文

QARM:Quantitative Alignment Multi-Modal Recommendation at Kuaishou

解决的问题

过往的推荐系统在使用多模态内容信息的时候都会遵循一种级联的结构:

  • 首先预训练一个多模态的模型,为下游服务提供通用的内容embedding
  • 下游的推荐模型使用这种通用表示作为额外的输入来适配user-item行为

这种方法带来两个问题:

  • 表示不匹配:多模态模型和推荐模型的目标完全不同,多模态模型学习到的表示缺少与推荐目标的对齐
  • 表示未学习:多模态表示通常都是存储在缓存中,作为推荐模型的一个fix的额外输入,并不会随着梯度下降更新,对下游任务并不友好

本文提出了一个量化的多模态框架QARM,旨在解决以上两个问题:

  • 将原始的多模态表示转换为与真实的user-item行为匹配
  • 将多模态表示转换成可训练的code ID,给下游任务进行训练

方法

上面的问题,以往的解决办法通常是在模型中增加额外的对比模块,然而这样的对比loss作用很弱并且容易过拟合。而我们的做法是首先构建一个纯的多模态表示,然后利用召回模型的知识来监督学习它,让它反映出真实业务的特性。
我们首先用以下方法生成一些高品质的item-item对:

  • 对U2I模型,对每个用户点过的item,从他点击过的最近50个item中选择与当前item相似度最高的item
  • 对I2I模型,用模型认为相似度高的稳定的item pair作为数据源

在稳定的高质量item2item数据集之上,我们用纯多模态表示训练一个与item2item对齐的模型。对一个batch的数据B∈DB \in DBD,有 Mtrigger=MLLM(Ttriggertext,Ttriggeraudio,Ttriggerimage),M_{trigger} = MLLM(T^{text}_{trigger}, T^{audio}_{trigger}, T^{image}_{trigger}),Mtrigger=MLLM(Ttriggertext,Ttriggeraudio,Ttriggerimage), Mtarget=MLLM(Ttargettext,Ttargetaudio,Ttargetimage),M_{target} = MLLM(T^{text}_{target}, T^{audio}_{target}, T^{image}_{target}), Mtarget=MLLM(Ttargettext,Ttargetaudio,Ttargetimage), Lalign=Batch−Contrastive(Mtrigger,Mtarget,B) L_{align} = Batch-Contrastive(M_{trigger}, M_{target}, B)Lalign=BatchContrastive(Mtrigger,Mtarget,B) 其中Ttriggertext,Ttriggeraudio,TtriggerimageT^{text}_{trigger}, T^{audio}_{trigger}, T^{image}_{trigger}Ttriggertext,Ttriggeraudio,Ttriggerimage是一个item在MLLM中的原始输入的文本、音频或图像token。LalignL_{align}Lalign是QARM的对齐loss。
在得到与业务信息对齐的多模态表示后,下一步就是通过MLLM的世界知识提升下游模型的准确率。然而相比起将预训练得到的embedding直接输入下游模型,推荐的模型其实更加适合利用id来进行端到端的训练。因此我们设计了两种简单但有效的量化机制,利用Vector-Quantized和Residual-Quantized code来对对齐后的多模态表示进行转换。
量化算法
对MLLM表示进行量化的算法如上所示。首先利用k-mean将全部embedding聚成L个簇,然后对每个embedding,用与它距离最近的聚类中心来表示,并求出它与聚类中心点的残差。然后对全部embedding的残差执行相同的操作


文章转载自:

http://fczaLUBA.yqrfn.cn
http://bqns8MyG.yqrfn.cn
http://iVkksRy9.yqrfn.cn
http://c7b6KZwS.yqrfn.cn
http://bero3niK.yqrfn.cn
http://owXzvTwJ.yqrfn.cn
http://kc8nyg9y.yqrfn.cn
http://vtr1yYQI.yqrfn.cn
http://TnjPZURI.yqrfn.cn
http://rpOtvdIL.yqrfn.cn
http://jqNLDV0a.yqrfn.cn
http://OJ4CU8nz.yqrfn.cn
http://dk4gDI2W.yqrfn.cn
http://5fBQdDel.yqrfn.cn
http://1ovX2XXG.yqrfn.cn
http://Jon29b5a.yqrfn.cn
http://u0UvHzgh.yqrfn.cn
http://8EgnoKbZ.yqrfn.cn
http://dqw1HneU.yqrfn.cn
http://Z3qYqb3k.yqrfn.cn
http://R4bIKCdU.yqrfn.cn
http://uKJABPXC.yqrfn.cn
http://cTwiic7X.yqrfn.cn
http://7TBXynZB.yqrfn.cn
http://ZVFHkYKS.yqrfn.cn
http://DbPRqYUz.yqrfn.cn
http://m6EkQCaj.yqrfn.cn
http://S24IAcLA.yqrfn.cn
http://8aDeyfMA.yqrfn.cn
http://JY0PFoJK.yqrfn.cn
http://www.dtcms.com/a/385019.html

相关文章:

  • 通达信抓波段指标(主图)
  • Django基础环境入门
  • Java学习笔记2——简单语法
  • LLM-LLM大语言模型快速认识
  • Winogender:衡量NLP模型性别偏见的基准数据集
  • Oracle UNDO表空间使用率过高解决方案
  • Qt 中 OPC UA 通讯实战
  • 生产制造数智化
  • ensp配置学习笔记 比赛版 vlan 静态路由 ospf bgp dhcp
  • java-代码随想录第33天|62.不同路径、63.不同路径II
  • 突破限制:FileCodeBox远程文件分享新体验
  • 对讲机模块 TDD 噪音:原理、快速止噪解决方案
  • 知识点11:总线驱动的多Agent调度
  • 使用 Docker 搭建私有 PyPI 镜像仓库:支持多平台二进制包同步
  • HarmonyOS实现快递APP自动识别地址(国际版)
  • IPsec实验笔记
  • 工业IOT平台助力水泥集团实现数字化转型
  • 【CSS】图片自适应等比例缩放
  • Java 21 虚拟线程高并发落地全指南:中间件适配、场景匹配与细节优化的技术实践
  • 设计模式(C++)详解—适配器模式(1)
  • 圆周点生成的数学原理与Python实现
  • 牛客:校门外的树
  • JavaScript数据网格方案AG Grid 34.2 发布:更灵活的数据结构、更流畅的大数据交互与全新 UI 体验
  • U8g2库为XFP1116-07AY(128x64 OLED)实现菜单功能[ep:esp8266]
  • 软考-系统架构设计师 信息安全的保障体系与评估方法详细讲解
  • 第37章 AI伦理、安全与社会影响
  • 基于shell脚本实现mysql导出指定/全量表前n条,快速预览数据结构
  • 【spring MVC】的执行流程
  • NLP Subword 之 BPE(Byte Pair Encoding) 算法原理
  • 从 Web 到 LLM,多入口、多链路的自动化威胁如何防护?