当前位置: 首页 > news >正文

[2025CVPR]DeepVideo-R1:基于难度感知回归GRPO的视频强化微调框架详解

突破视频大语言模型推理瓶颈,在多个视频基准上实现SOTA性能


一、核心问题与创新亮点

1.1 GRPO在视频任务中的两大挑战
  1. 安全措施依赖问题
    GRPO使用min和clip函数限制策略更新幅度,导致:

    • 梯度抑制:当新旧策略差异过大时梯度消失
    • 收敛困难:策略无法充分优化
# 传统GRPO的梯度抑制区域
ratio = new_prob / old_prob
clipped_ratio = torch.clamp(ratio, 1-ε, 1+ε)
loss = -torch.min(ratio * advantage, clipped_ratio * advantage)  # 梯度不连续区域

 

  1. 优势消失问题
    当样本难度极端(过易/过难)时:

    • 组内奖励趋同:σr​≈0
    • 优势值归零:A^(i)=σr​R−μr​​→0
    • 学习信号消失
1.2 DeepVideo-R1双创新机制

相关文章:

  • 2025蓝奏云软件库合集分享链接汇总:极刻云搜 - 一站式获取海量资源
  • 人脸识别技术应用备案材料揭秘
  • 24-Oracle 23 ai ​Lock-Free Reservations​(无锁列值保留)
  • 恶意流量异同
  • python打卡day50@浙大疏锦行
  • Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)
  • 【MySQL数据库】InnoDB存储引擎:事务原理redolog、undolog与版本控制MVCC
  • windows上tensorrt国内镜像下载和安装教程
  • 欧盟手机和平板电脑生态设计和能源标签法案解析
  • Java八股文——JVM「垃圾回收篇」
  • 用C#实现单向链表和双向链表
  • vs2022中detach qt widgets designer
  • Python----OpenCV(图像处理——图像的多种属性、RGB与BGR色彩空间、HSB、HSV与HSL、ROI区域)
  • Vim 撤销 / 重做 / 操作历史命令汇总
  • Java事务回滚详解
  • 2025-03-14-Google检索技巧
  • CentOS7下的Redis部署
  • JavaScript事件循环机制详解
  • Revo Uninstaller中文版:深度卸载,系统优化
  • 【笔记】NVIDIA AI Workbench 安装记录
  • 常州做网站yongjiaweb/西安企业seo外包服务公司
  • 哪个网站做任务可以赚钱/百度售后电话人工服务
  • 成都建设网站首页/seo门户 site
  • 建设我们的网站/杭州seo中心
  • 有哪些好的网站建设公司/网站设计的基本原则
  • 电子商务网站与建设实践报告/什么样的人适合做策划