当前位置: 首页 > news >正文

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

本论文作者团队来自腾讯混元X组,共同一作为耿子钢和王逸冰,项目Lead为张小松,通讯作者为腾讯混元团队杰出科学家胡瀚,Swin Transformer作者。

在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。然而,当这一范式被应用于视觉领域时,却暴露出诸多瓶颈:生成图像细节失真、语义理解偏差,尤其在复杂文本渲染任务中表现尤为乏力。目前,统一视觉理解和生成的主流研究工作在图像生成部分往往采用扩散模型来建模,使得视觉理解和生成任务依然只是松散的耦合在一起。

近日,腾讯混元团队的最新研究成果 X-Omni 模型通过强化学习大幅提升了自回归图像生成方法的生成质量,这一模型能生成具有较高美学品质的图像,同时展现出强大的遵循指令和渲染长文本图像的能力。该模型已开源:

  • 论文链接:https://arxiv.org/pdf/2507.22058

  • GitHub链接:https://github.com/X-Omni-Team/X-Omni

  • 项目主页:https://x-omni-team.github.io

  • Hugging Face 模型:https://huggingface.co/collections/X-Omni/x-omni-models-6888aadcc54baad7997d7982

  • Hugging Face Space:https://huggingface.co/collections/X-Omni/x-omni-spaces-6888c64f38446f1efc402de7

强化学习大幅提升——图像生成质量和指令遵循能力

基于离散自回归方法监督微调后图像生成的质量相对较低,表现为文本生成错误、身体特征失真以及无法遵循复杂指令。引入强化学习后,生成图像的审美质量逐渐提高,遵循指令的能力和渲染长文本的能力稳步提升。如图 2 所示,经过 200 步强化学习,X-Omni 模型展示了图像生成的高质量视觉效果、强大的遵循复杂指令的能力,以及准确渲染中英文长文本的能力。

奖励系统

我们构建了一个综合性的奖励模型系统,其包含多个专门的模型,从人类美学偏好、文本 - 图像语义对齐以及文本渲染准确性等维度来评估图像生成质量。最终奖励分数通过各个奖励信号的加权融合得出。

  • 人类偏好分数:采用 HPSv2 模型评估人类美学偏好。该模型在多种图像分布上均表现出优异的泛化能力,能够可靠地预测人类对生成图像的偏好排序。

  • Unified Reward 分数:引入 Unified Reward 对图像进行整体质量评估。该奖励函数将多维度质量指标聚合为一个统一的分数,为强化学习提供整体反馈。

  • 文本 - 图像语义对齐分数:为确保输入提示和生成图像间的语义一致性,我们利用 Qwen2.5-VL-32B 来计算对齐奖励。借助该模型强大的图像理解能力,我们评估生成图像是否准确反映了提示描述的内容。对齐分数量化了文本描述和视觉内容之间的对应关系,鼓励生成与上下文相关的图像,同时最大限度地减少语义幻觉。

  • OCR 准确性分数:文本渲染准确性是文本到图像生成中的一个关键挑战。对于需要在图像中生成文本的提示,我们联合 GOT-OCR 2.0 与 PaddleOCR 对生成图像进行双重 OCR 解析,计算文本渲染的准确性分数。该奖励信号为增强文本渲染能力提供了关键指导,使我们的模型能够可靠地生成清晰准确的文本。

http://www.dtcms.com/a/323885.html

相关文章:

  • 机械学习--DBSCAN 算法(附实战案例)
  • 基于梅特卡夫定律的开源链动2+1模式AI智能名片S2B2C商城小程序价值重构研究
  • Jenkins | 账号及权限管理
  • Python爬虫实战:研究Ruia框架,构建博客园文章采集系统
  • 【Elasticsearch入门到落地】16、RestClient查询文档-快速入门
  • AIStarter:全网唯一跨平台桌面AI管理工具,支持Windows、Mac和Linux一键部署
  • 滚动条开始滚动时,左侧导航固定,当左侧内容触底到footer时左侧内容取消固定并跟随滚动条滚动
  • ADK【4】内置前端调用流程
  • TDengine IDMP 快速体验(方式二 通过 docker)
  • 安全引导功能及ATF的启动过程(五)
  • Linux 虚拟机磁盘空间占满-全面清理方案
  • GoBy 工具联动 | GoBy AWVS 自动化漏扫工作流
  • [论文阅读] 人工智能 + 软件工程 | 大型语言模型对决传统方法:多语言漏洞修复能力大比拼
  • Kafka 生产者与消费者分区策略全解析:从原理到实践
  • 音视频学习(五十一):AAC编码器
  • Samba使用
  • java常见算法
  • 前端开发的奇技淫巧 --- 持续更新中
  • 《P3403 跳楼机》
  • 搭建本地 Git 服务器
  • Beelzebub靶机攻略
  • 昼夜节律修复方案(2025.08.10-08.17)
  • 基于python高校固定资产管理系统
  • vue3项目中在一个组件中点击了该组件中的一个按钮,那么如何去触发另一个组件中的事件?
  • 计算机网络:(十四)传输层(下)详细讲解TCP报文段的首部格式,TCP 可靠传输的实现与TCP 的流量控制
  • 纳维 - 斯托克斯方程的存在性与光滑性:流体世界的千年谜题
  • Dify集成 Echarts 实现智能数据报表集成与展示实战详解
  • 【东枫科技】FR2/FR3 毫米波原型开发平台
  • ubuntu 安装内核模块驱动 DKMS 介绍
  • 基于Ubuntu20.04的环境,编译QT5.15.17源码