当前位置: 首页 > news >正文

Interleaving-Reasoning-Generation - 交错推理生成技术

文章目录

    • 一、关于项目
      • 1、项目概览
      • 2、相关链接资源
      • 3、功能特性
    • 二、性能表现
    • 三、安装配置
    • 四、使用示例
      • 1、推理流程
      • 2、案例对比
    • 五、更新日志
    • 其它
      • 参考项目


一、关于项目

1、项目概览

官方实现库:"Interleaving Reasoning for Better Text-to-Image Generation"论文的代码仓库,通过交错推理技术显著提升文生图质量。


2、相关链接资源

  • Github:https://github.com/Osilly/Interleaving-Reasoning-Generation
  • 论文:https://arxiv.org/abs/2509.06945
  • 数据集:https://huggingface.co/datasets/Osilly/IRG-Toy-Dataset
  • SFT训练代码:https://github.com/Osilly/Interleaving-Reasoning-Generation/tree/main/SFT
  • 评估代码:https://github.com/Osilly/Interleaving-Reasoning-Generation/blob/main/eval/README.md

3、功能特性

  1. 多阶段推理生成
    模型首先生成基于文本的推理过程,然后基于该推理生成图像,再通过反思过程优化图像质量

  2. 六种分解学习模式
    训练流程包含文本思考过程和完整的高质量图像生成流程学习

  3. 专用CFG条件设计
    推理阶段采用特制的CFG条件机制优化图像生成步骤


二、性能表现

模型GenEvalWISETIIF-short/long (Qwen)GenAI-BenchOneIG-EN
IRG (Ours)0.850.7776.00/73.770.840.415

三、安装配置

git clone https://github.com/Osilly/Interleaving-Reasoning-Generation.git
cd Interleaving-Reasoning-Generation
pip install -e .
pip install flash-attn --no-build-isolation

四、使用示例

1、推理流程

在这里插入图片描述


2、案例对比

https://github.com/Osilly/Interleaving-Reasoning-Generation/raw/main/figs/compare.png


五、更新日志

  • [2025/09/15] 发布[SFT训练代码]和[IRG-Toy-Dataset]
  • [2025/09/08] 论文上线arXiv

其它

参考项目

  • BAGEL

伊织 xAI 2025-09-15(一)

http://www.dtcms.com/a/414197.html

相关文章:

  • 【C++】:继承全面解析
  • 大良营销网站建设机构设计专业所需网站
  • Spark专题-第二部分:Spark SQL 入门(8)-算子介绍-sort
  • 知识体系_分布式内存计算框架_spark
  • 银行 网站开发 干什么wordpress路径错误
  • QML 语法基础详解
  • ExcelVBA一键生成智能散点趋势图
  • ✨WPF编程基础【1.4】:类型转换器(含示例及源码)
  • 公链分析报告 - 模块化区块链2
  • 数图实战项目(十五-2:第一阶段:从RAW数据到ISP管道,听不懂在说啥?---> 那就盘它):从奥运大屏,到手机小屏,快来挖一挖里面都有什么
  • 网站开发常见面试东莞网站优化关键词推广
  • GauGAN详解与实现
  • Word如何一次性合并多个文档
  • 互联网技术服务优化大师优化项目有
  • 状态管理库 Zustand 的接入流程与注意点
  • 河北网站建设推广电话wordpress网址导航主题
  • NFS 服务器 iSCSI 服务器
  • display this 概念、故障排错及题目
  • whisper-large-v3部署详细步骤,包括cpu和gpu方式,跟着做一次成功
  • 个人用云计算学习笔记 --16(DHCP 服务器)
  • 【Linux】基础IO与文件描述符
  • ​​FFmpeg 教程:从入门到精通,探索多媒体处理的瑞士军刀​
  • 使用ffmpeg8.0的whisper模块语音识别
  • 免费版Markdown 编辑器:Typora
  • 个人建网站有什么好处网站运营需要 做哪些工作
  • MySQL库、表的操作
  • FileProvider 配置必须针对 Android 7.0+(API 24+)做兼容
  • 混合止损策略在加密货币交易中的应用
  • Java模拟实现socket通信
  • iSCSI服务器