当前位置: 首页 > news >正文

End-To-End 之于推荐-kuaishou OneRec2 笔记

在这里插入图片描述
End_To_End 之于推荐onerec里,快手利用大模型做了推荐架构的革命,几个月后,v2之于v1是一些技术细节进行了进一步迭代,主要是以下两个方面:

1. 架构层面的突破:Lazy Decoder-Only

在这里插入图片描述

背景问题:V1 的 Encoder-Decoder 架构里,97.66% 的算力都消耗在 context encoding,真正用于生成推荐结果的部分只有 2.34%,导致算力浪费、扩展性差。

改进方案:提出 Lazy Decoder-Only 架构,彻底移除 encoder,context 只作为静态条件输入,通过轻量 cross-attention 与 GQA(Grouped Query Attention)完成交互。

效果

  • 计算量减少 94%,训练资源消耗下降 90%。
  • 在同样计算预算下,模型参数可以扩展到 8B。
  • 训练 loss 随模型扩展呈现一致下降趋势,验证了 scaling law 的可行性。
  • 内存占用降低,支持长上下文(从 512 扩展到 3000)。
  • 结合 MoE(4B 总参 / 0.5B 激活),进一步平衡算力与性能。

2. 偏好对齐:基于真实用户反馈的 RL

V1 局限:仅依赖 Reward Model,会遇到抽样效率低、奖励欺骗(reward hacking)等问题。

V2 改进:Duration-Aware Reward Shaping

直接使用用户反馈作为reward:将视频播放时长与用户历史的同类时长 bucket 对比,取分位数作为 engagement score,避免“长视频天然更高播放时长”的偏差。

GBPO (Gradient-Bounded Policy Optimization)

改进 RL 的 ratio clipping,结合 BCE 的稳定梯度,防止负样本导致梯度爆炸。

不丢弃样本 → 保持探索多样性;梯度有界 → 训练更稳定。

自举式优化:直接利用 OneRec 自身曝光的流量样本做 on-policy 训练,实现自我改进。

对比结果

  • Reward Model → 偏向互动指标(like/comment)。
  • User Feedback → 偏向停留时长(App Stay Time)。
  • Hybrid → 指标均衡,避免 seesaw 效应。

3. 线上 A/B 测试结果

在快手主站 & 极速版 5% 流量实验中(400M DAU):

App Stay Time:+0.467%(主站) / +0.741%(极速版)

LT7(7 日生命周期):+0.069% / +0.034%

互动指标全面提升:like、follow、comment、collect、forward 全部正向改善

推理部署:1B 模型,context=3000,MFU 达 62%,延迟仅 36ms(20×A100 GPU)。

最后,给出一个对比表:

维度OneRec-V1OneRec-V2改进点总结
模型架构Encoder-DecoderLazy Decoder-Only移除 Encoder,计算集中在 Decoder,减少 94% FLOPs
算力分配97.66% 用于 context encoding,仅 2.34% 用于生成≈100% 用于 target decoding解决算力浪费问题,提升 scaling 潜力
扩展能力Decoder 参数比 Encoder 多,但受算力瓶颈限制,难以扩展支持扩展到 8B 参数,MoE 版本 4B 总参(0.5B 激活)高效扩展,更接近 LLM 的 scaling law
Cross Attention标准 cross-attention(KV 投影 + 多头)Lazy Cross-Attention(去掉 KV 投影,KV-Sharing + GQA)降低内存 & 计算开销,支持长上下文(3000)
训练数据组织User-Centric / Encoder-Decoder 组织,存在冗余和泄漏风险Chronological + 仅最新 impression 计算 loss减少冗余训练,避免时间泄漏
RL 策略仅基于 Reward Model(DPO/ECPO)User Feedback 信号驱动 + Duration-Aware Reward + GBPO避免 reward hacking,提升真实偏好对齐
Reward 设计Proxy Reward(容易被模型利用)Duration-Aware Reward Shaping(分位数归一化)去除长视频偏差,更好反映质量
优化算法ECPO(早期裁剪)GBPO(梯度有界 + 全样本利用)稳定性更高,不丢弃样本,探索更多样
自举优化流量较小,主要依赖传统 pipeline 样本OneRec 曝光占流量 25%,可用自生成样本 on-policy 训练实现 self-improvement
线上效果 (主站)App Stay Time +0.269%App Stay Time +0.467%,LT7 +0.069%明显提升,平衡 seesaw 效应
线上效果 (极速版)App Stay Time +0.163%App Stay Time +0.741%,LT7 +0.034%效果更显著
互动指标偏向提升 Like / Comment全面提升(Like、Follow、Comment、Collect、Forward)多目标更均衡
推理效率MFU 较低,部署成本高MFU 62%,延迟 36ms(1B 模型,20×A100)接近 LLM 部署效率,成本降低

文章转载自:

http://umU7w735.fkgct.cn
http://cTRwpk7C.fkgct.cn
http://uBY60lp7.fkgct.cn
http://qmPeJ5OK.fkgct.cn
http://6LQ7OXO0.fkgct.cn
http://3z3rN7Ky.fkgct.cn
http://7SFTtqmS.fkgct.cn
http://tTUcZ3f8.fkgct.cn
http://nqJR0PFN.fkgct.cn
http://mizJHN9D.fkgct.cn
http://AnMJ9T1d.fkgct.cn
http://ffYh0OFa.fkgct.cn
http://XmydHxpS.fkgct.cn
http://OlwANp1w.fkgct.cn
http://aoa72Yjr.fkgct.cn
http://lYgVBqXs.fkgct.cn
http://yejTthNz.fkgct.cn
http://U5SalLYu.fkgct.cn
http://lQqygJxE.fkgct.cn
http://ic9ZdD8m.fkgct.cn
http://rGgiqp6L.fkgct.cn
http://zzSBO7kh.fkgct.cn
http://VePZuUq2.fkgct.cn
http://kCLfEUju.fkgct.cn
http://ecjZLyQf.fkgct.cn
http://UBFEkOtB.fkgct.cn
http://u5vVeTew.fkgct.cn
http://PBT5K9wP.fkgct.cn
http://ePpujXuA.fkgct.cn
http://ZsfCt9Gu.fkgct.cn
http://www.dtcms.com/a/363300.html

相关文章:

  • css中 ,有哪些⽅式可以隐藏页⾯元素? 区别?
  • 03_网关ip和端口映射(路由器转发)操作和原理
  • Telnet 原理与配置
  • 基于STM32单片机智能家居wifi远程监控系统机智云app设计
  • Replit在线编程工具:支持多语言环境免配置与实时协作,助力编程学习调试与社区项目复用
  • Spring Security的@PreAuthorize注解为什么会知道用户角色?
  • 0902 C++类的匿名对象
  • Nano Banana 复刻分镜,多图结合片刻生成想要的视频
  • 适配第一性原理与分子动力学研究的高性能工作站解析
  • 信息安全各类加密算法解析
  • LDR6600:2C1A适配器协议方案芯片
  • 综合诊断板CAN时间戳稳定性测试报告8.28
  • Nek La Vita È DJ大来 安装教程 简单步骤 教你怎么装(附安装包下载)
  • Windows 命令行:父目录与子目录
  • 力扣222 代码随想录Day15 第四题
  • 缓存工具服务(封装缓存击穿+缓存穿透+缓存雪崩)
  • HCIE-Datacom 论述【Y园区】
  • 流程自动化常见三大悖论及RPA人机协作的工程实践
  • SQL JOIN 操作全面解析
  • 用高质量外链驱动SEO增长:2025年链接建设实战策略
  • milvus使用
  • 2025 年,这些求职技能利用空闲时间就能学,轻松提升职场竞争力​
  • 【V8引擎】介绍
  • WS2812灯带效果设计器上位机
  • 数据结构——顺序表和单向链表(1)
  • 【小白笔记】使用 robocopy 解决大文件复制难题:从踩坑到精通
  • Cursor 教我学 Python
  • 基于 HTML、CSS 和 JavaScript 的智能图像锐化系统
  • JSON Schema 格式详解、版本介绍和示例教程
  • 简单爬一个小说页面 HTML 的title和内容