[2025CVPR]DeepVideo-R1:基于难度感知回归GRPO的视频强化微调框架详解
突破视频大语言模型推理瓶颈,在多个视频基准上实现SOTA性能
一、核心问题与创新亮点
1.1 GRPO在视频任务中的两大挑战
-
安全措施依赖问题
GRPO使用min和clip函数限制策略更新幅度,导致:- 梯度抑制:当新旧策略差异过大时梯度消失
- 收敛困难:策略无法充分优化
# 传统GRPO的梯度抑制区域
ratio = new_prob / old_prob
clipped_ratio = torch.clamp(ratio, 1-ε, 1+ε)
loss = -torch.min(ratio * advantage, clipped_ratio * advantage) # 梯度不连续区域
-
优势消失问题
当样本难度极端(过易/过难)时:- 组内奖励趋同:σr≈0
- 优势值归零:A^(i)=σrR−μr→0
- 学习信号消失