当前位置：首页 > news >正文

[2025CVPR]DeepVideo-R1：基于难度感知回归GRPO的视频强化微调框架详解

news 2025/9/23 22:30:54

突破视频大语言模型推理瓶颈，在多个视频基准上实现SOTA性能

一、核心问题与创新亮点

1.1 GRPO在视频任务中的两大挑战

安全措施依赖问题
GRPO使用min和clip函数限制策略更新幅度，导致：
- 梯度抑制：当新旧策略差异过大时梯度消失
- 收敛困难：策略无法充分优化

# 传统GRPO的梯度抑制区域
ratio = new_prob / old_prob
clipped_ratio = torch.clamp(ratio, 1-ε, 1+ε)
loss = -torch.min(ratio * advantage, clipped_ratio * advantage)  # 梯度不连续区域

优势消失问题
当样本难度极端（过易/过难）时：
- 组内奖励趋同：σr≈0
- 优势值归零：A^(i)=σrR−μr→0
- 学习信号消失

1.2 DeepVideo-R1双创新机制

查看全文

http://www.dtcms.com/a/242506.html

2025蓝奏云软件库合集分享链接汇总：极刻云搜 - 一站式获取海量资源

人脸识别技术应用备案材料揭秘

24-Oracle 23 ai Lock-Free Reservations(无锁列值保留)

恶意流量异同

python打卡day50@浙大疏锦行

【MySQL数据库】InnoDB存储引擎：事务原理redolog、undolog与版本控制MVCC

windows上tensorrt国内镜像下载和安装教程

欧盟手机和平板电脑生态设计和能源标签法案解析

Java八股文——JVM「垃圾回收篇」

用C#实现单向链表和双向链表

vs2022中detach qt widgets designer

Python----OpenCV（图像处理——图像的多种属性、RGB与BGR色彩空间、HSB、HSV与HSL、ROI区域）

Vim 撤销 / 重做 / 操作历史命令汇总

Java事务回滚详解

2025-03-14-Google检索技巧

CentOS7下的Redis部署

JavaScript事件循环机制详解

Revo Uninstaller中文版：深度卸载，系统优化

【笔记】NVIDIA AI Workbench 安装记录

YOLOv5白皮书 common.py 文件解读

鸿蒙多语言开发实战：3 步实现中英文动态切换（无需重启 App）附完整代码 + 避坑指南

Prompt Tuning、P-Tuning、Prefix Tuning的区别

小白成长之路-Shell脚本

西电计组第四章-存储系统

使用Meshlab处理非流形边的问题

Illegal key size or default parameters问题解决

入门机器学习需要的统计基础

55. Jump Game

二十、【用户管理与权限 - 篇二】前端交互：实现用户管理界面

一、核心问题与创新亮点

1.1 GRPO在视频任务中的两大挑战

1.2 DeepVideo-R1双创新机制

相关文章：