当前位置: 首页 > news >正文

R1-Omni

一、Omni概述

Omni = 文本+视频+音频,全模态。

R1+Omni = 强化学习+全模态。

二、Omni举例-humanOmni

humanOmni:以人体姿态和人物交互为中心的全模态模型。

  • visual projector有3个,分别负责人脸标签、姿态检测、人和物交互。有点像moe。
  • text encoder 对visual projector进行fusion加权,通过文本区分不同的任务,对不同的视觉组件进行激活。

三、训练流程

冷启动 + Reinforcement Learning with Verifiable Reward (RLVR)

  • 冷启动:少量(带COT)样本的sft。为了确保强化学习训练(RLVR)的稳定性,R1-Omni采用了一种冷启动(Cold Start)策略,旨在通过少量标注数据为模型赋予初步的推理能力。
  • 可验证奖励的强化学习RLVR+组相对策略优化GRPO:与传统的基于人类反馈的强化学习(RLHF)不同,RLVR通过直接利用验证函数来评估输出,从而消除了中间奖励建模的需求。RLVR的核心在于简化奖励机制,同时确保与任务的内在正确性标准保持一致。
    • reward 函数:格式+正确性,总奖励公式为:R=Racc​+Rformat​
    • 准确率奖励(RaccRacc​:若情感标签与真实值一致,奖励为1,否则为0。
    • 格式奖励(RformatRformat​:若输出严格符合<think><answer>标签格式,奖励为1,否则为0。
  • 组相对策略优化(GRPO)

    与传统方法如近端策略优化(PPO)不同。GRPO通过直接比较生成的响应组来评估候选策略的相对质量,从而简化了训练过程。

    具体来说,GRPO首先为给定输入问题q生成G个不同的响应{o1​,o2​,…,oG​},然后根据预定义的奖励函数评估这些响应的奖励{r1​,r2​,…,rG​}。为了确定每个响应的相对质量,GRPO通过计算均值和标准差来归一化奖励。

四、其它

1.如何理解训练中仅对answer进行reward,大模型可以学习调整think内容?

①在sft冷启动时,我们让大模型监督学习的内容包含<think>和<answer>,可以让大模型迅速的get到我们想要表达的业务逻辑。

②在强化学习过程中,仅对answer进行reward,此时需要发挥语言大模型自身的逻辑能力,对answer调整的同时match到相应的think。

相关文章:

  • SAP note 3565626 : Baltimore CyberTrust 根证书即将过期
  • 数据结构与算法分析实验10 实现最短路径算法
  • “Cobalt Strike Aggressor脚本提权全解析:从监听器到SYSTEM/root的渗透实战指南“
  • HarmonyOS开发-组件市场
  • SpringAI--基于MySQL的持久化对话记忆实现
  • 关于C#项目中 服务层使用接口的问题
  • java-反射精讲
  • 移动设备常用电子屏幕类型对比
  • 【数据结构】1. 时间/空间复杂度
  • Java大师成长计划之第16天:高级并发工具类
  • 通过.sh脚本设置java环境变量
  • LeetCode:101、对称二叉树
  • 分治算法-leetcode148题
  • Linux云计算训练营笔记day05(Rocky Linux中的命令:管道操作 |、wc、find、vim)
  • Godot4.3类星露谷游戏开发之【昼夜循环】
  • 【软件设计师:数据】17.数据安全
  • 人力资源管理系统如何有效提高招聘效率?
  • Navicat 17最新保姆级安装教程(附安装包+永久使用方法)
  • 软件设计师教程——第一章 计算机系统知识(下)
  • 不同渲染任务,用CPU还是GPU?
  • 一周文化讲座|城市移民与数字时代的新工作
  • 常州市委原常委、组织部部长陈翔调任江苏省民宗委副主任
  • 轿车追尾半挂车致3死1伤,事故调查报告:司机过分依赖巡航系统
  • 暴雨蓝色预警:南方开启较强降雨过程
  • 上海市委政法委召开会议传达学习总书记重要讲话精神
  • 巴基斯坦所有主要城市宣布进入紧急状态,学校和教育机构停课