当前位置：首页 > news >正文

R1-Omni

news 2025/7/1 11:39:26

一、Omni概述

Omni = 文本+视频+音频，全模态。

R1+Omni = 强化学习+全模态。

二、Omni举例-humanOmni

humanOmni：以人体姿态和人物交互为中心的全模态模型。

visual projector有3个，分别负责人脸标签、姿态检测、人和物交互。有点像moe。
text encoder 对visual projector进行fusion加权，通过文本区分不同的任务，对不同的视觉组件进行激活。

三、训练流程

冷启动 + Reinforcement Learning with Verifiable Reward (RLVR)

冷启动：少量（带COT）样本的sft。为了确保强化学习训练（RLVR）的稳定性，R1-Omni采用了一种冷启动（Cold Start）策略，旨在通过少量标注数据为模型赋予初步的推理能力。
可验证奖励的强化学习RLVR+组相对策略优化GRPO：与传统的基于人类反馈的强化学习（RLHF）不同，RLVR通过直接利用验证函数来评估输出，从而消除了中间奖励建模的需求。RLVR的核心在于简化奖励机制，同时确保与任务的内在正确性标准保持一致。
- reward 函数：格式+正确性，总奖励公式为：R=Racc+Rformat
- 准确率奖励（RaccRacc：若情感标签与真实值一致，奖励为1，否则为0。
- 格式奖励（RformatRformat：若输出严格符合<think>和<answer>标签格式，奖励为1，否则为0。
组相对策略优化（GRPO）
与传统方法如近端策略优化（PPO）不同。GRPO通过直接比较生成的响应组来评估候选策略的相对质量，从而简化了训练过程。

具体来说，GRPO首先为给定输入问题q生成G个不同的响应{o1,o2,…,oG}，然后根据预定义的奖励函数评估这些响应的奖励{r1,r2,…,rG}。为了确定每个响应的相对质量，GRPO通过计算均值和标准差来归一化奖励。

四、其它

1.如何理解训练中仅对answer进行reward，大模型可以学习调整think内容？

①在sft冷启动时，我们让大模型监督学习的内容包含<think>和<answer>，可以让大模型迅速的get到我们想要表达的业务逻辑。

②在强化学习过程中，仅对answer进行reward，此时需要发挥语言大模型自身的逻辑能力，对answer调整的同时match到相应的think。

http://www.dtcms.com/a/181287.html

相关文章：

SAP note 3565626 ： Baltimore CyberTrust 根证书即将过期

数据结构与算法分析实验10 实现最短路径算法

“Cobalt Strike Aggressor脚本提权全解析：从监听器到SYSTEM/root的渗透实战指南“

HarmonyOS开发-组件市场

SpringAI--基于MySQL的持久化对话记忆实现

关于C#项目中服务层使用接口的问题

java-反射精讲

移动设备常用电子屏幕类型对比

【数据结构】1. 时间/空间复杂度

Java大师成长计划之第16天：高级并发工具类

通过.sh脚本设置java环境变量

LeetCode：101、对称二叉树

分治算法-leetcode148题

Linux云计算训练营笔记day05（Rocky Linux中的命令:管道操作 |、wc、find、vim）

Godot4.3类星露谷游戏开发之【昼夜循环】

【软件设计师：数据】17.数据安全

人力资源管理系统如何有效提高招聘效率？

Navicat 17最新保姆级安装教程(附安装包+永久使用方法)

软件设计师教程——第一章计算机系统知识（下）

不同渲染任务，用CPU还是GPU？

upload文件上传

MySQL 的锁机制

Webug4.0靶场通关笔记24- 第29关Webshell爆破

Linux 大于2T磁盘分区

opencv中的图像特征提取

RK3588 Ubuntu安装Qt6

从代码学习深度学习 - 区域卷积神经网络（R-CNN）系列 PyTorch版

levelDB的数据查看（非常详细）

【面板数据】各省双向FDI协调发展水平数据集（2005-2022年）

并发 vs 并行编程详解