当前位置: 首页 > news >正文

[论文阅读] 人工智能 | ComfyUI-R1: Exploring Reasoning Models for Workflow Generation

在这里插入图片描述

论文信息

arXiv:2506.09790 (cross-list from cs.CL)
ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
Comments: Work in progress. Try it out in ComfyUI-Copilot this https URL
Subjects: Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Software Engineering (cs.SE)


一段话总结

论文介绍了ComfyUI-R1这一首个用于自动工作流生成的大型推理模型,其通过构建包含4K工作流的知识库,采用“监督微调+强化学习”的两阶段训练框架,结合规则-指标混合奖励机制,实现了对ComfyUI工作流的长链思维推理生成。实验显示,7B参数的ComfyUI-R1格式有效性达97%,节点级和图级F1分数显著优于GPT-4o等闭源模型,在ComfyBench上通过率达67%,展现了长链推理在AI艺术创作中的潜力。


思维导图

在这里插入图片描述

详细总结

一、研究背景与目标
  1. ComfyUI的挑战:作为低代码AI工作流框架,ComfyUI拥有超400万活跃用户和12K组件,但构建有效工作流需协调大量节点,新用户面临高门槛。
  2. 现有方法局限:依赖GPT-4o等闭源模型,仅聚焦文本到图像生成,生成JSON常含格式错误或幻觉节点。
  3. 研究目标:提出ComfyUI-R1,通过长链思维推理实现自动工作流生成,扩展至多模态任务。
二、模型方法
  1. 知识基础构建
    • 节点KB:从40K节点中清洗出7,238个,用Claude 3.5生成文档。
    • 工作流KB:从27K工作流中筛选出3,917个,支持JSON与代码转换,覆盖图像编辑、视频生成等任务。
  2. 两阶段训练框架
    • 监督微调(SFT):用Qwen-Max等生成CoT推理序列,包含节点选择、工作流规划和代码生成,训练数据11,140样本。
    • 强化学习(RL):采用Group Relative Policy Optimization(GRPO),设计混合奖励:
      • 格式奖励((R_{format})):检查标签完整性。
      • 结构奖励((R_{DAG})):验证有向无环图结构。
      • 节点保真度((R_{fidelity})):惩罚幻觉或不一致节点。
      • 选择精度((R_{correct})):计算节点集合重叠率。
三、实验结果
方法格式有效性节点级F1图级F1ComfyBench通过率
GPT-4o + CoT0.920.420.290.28
ComfyAgent-0.200.100.56
ComfyUI-R10.970.620.510.67
  1. 量化指标:ComfyUI-R1在格式有效性、节点和图级匹配上显著优于基线,RL训练进一步提升性能。
  2. 案例分析:相比ComfyAgent,ComfyUI-R1能成功生成多图像融合工作流,避免节点未使用等问题。
四、核心贡献
  1. 模型创新:首个ComfyUI工作流生成大推理模型,支持长链CoT推理。
  2. 方法突破:两阶段训练框架与混合奖励机制,提升生成可靠性。
  3. 性能优势:超越闭源模型,推动AI工作流自动化发展。

关键问题

  1. ComfyUI-R1的核心创新点是什么?
    • 答案:ComfyUI-R1是首个针对ComfyUI的自动工作流生成大型推理模型,采用“监督微调+强化学习”两阶段训练框架,并设计规则-指标混合奖励机制,确保生成工作流的格式有效性、结构正确性和节点保真度。
  2. 模型训练中如何处理工作流数据?
    • 答案:研究团队从社区收集27K工作流,清洗后保留3,917个,每个工作流包含JSON和代码表示、功能描述。训练时通过模拟节点检索生成候选集,结合Qwen-Max等生成CoT推理序列,用于监督微调;强化学习阶段采用GRPO算法,基于混合奖励优化推理能力。
  3. ComfyUI-R1相比现有方法有何性能优势?
    • 答案:在测试集上,ComfyUI-R1格式有效性达97%,节点级F1为0.62,图级F1为0.51,远超GPT-4o(格式有效性92%,节点级F1 0.42)和ComfyAgent(节点级F1 0.20)。在ComfyBench上,通过率67%,比ComfyAgent高11%。

相关文章:

  • Python 爬虫入门 Day 1 - 网络请求与网页结构基础
  • 力扣HOT100之技巧:75. 颜色分类
  • 三、DevEco Studio安装和HelloWorld应用
  • 鸿蒙期末总结
  • 纯血HarmonyOS ArKTS NETX 5 打造小游戏实践:狼人杀(介绍版(附源文件)
  • React16,17,18,19更新对比
  • springboot后端与鸿蒙的结合
  • 算法导论第一章:算法基础与排序艺术
  • 西电【信息与内容安全】课程期末复习笔记
  • 53. 最大的子数组和
  • 26-数据结构-顺序表1
  • go部分语法记录
  • 算法第14天|继续学习二叉树:找二叉树左下角的值、二叉树路径总和、从中序遍历与后序遍历序列构建二叉树
  • 数据结构 (树) 学习 2025年6月12日12:59:39
  • 校园网数据安全防线
  • 【力扣 简单 C】83. 删除排序链表中的重复元素
  • 浅析4D-bev标注技术在自动驾驶领域的重要性
  • python中的分支结构:单分支、多分支,switch语句
  • Haption遥操作机械臂解决方案通过高精度力反馈技术实现人机协同操作
  • 常用三款解压软件对比
  • 专业网站制作公司排行/网站整合营销推广
  • 域名注册网站便宜/百度官网首页入口
  • 如何在网站上做网上亮照/百度seo排名优化公司哪家好
  • 2003总是说网站建设中/营销活动有哪些
  • 2017年网站推广怎么做/合肥网站优化排名推广
  • 西宁网站建设制作公司/搜索引擎营销优化的方法