[论文阅读] 人工智能 | ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
论文信息
arXiv:2506.09790 (cross-list from cs.CL)
ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
Comments: Work in progress. Try it out in ComfyUI-Copilot this https URL
Subjects: Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Software Engineering (cs.SE)
一段话总结
论文介绍了ComfyUI-R1这一首个用于自动工作流生成的大型推理模型,其通过构建包含4K工作流的知识库,采用“监督微调+强化学习”的两阶段训练框架,结合规则-指标混合奖励机制,实现了对ComfyUI工作流的长链思维推理生成。实验显示,7B参数的ComfyUI-R1格式有效性达97%,节点级和图级F1分数显著优于GPT-4o等闭源模型,在ComfyBench上通过率达67%,展现了长链推理在AI艺术创作中的潜力。
思维导图
详细总结
一、研究背景与目标
- ComfyUI的挑战:作为低代码AI工作流框架,ComfyUI拥有超400万活跃用户和12K组件,但构建有效工作流需协调大量节点,新用户面临高门槛。
- 现有方法局限:依赖GPT-4o等闭源模型,仅聚焦文本到图像生成,生成JSON常含格式错误或幻觉节点。
- 研究目标:提出ComfyUI-R1,通过长链思维推理实现自动工作流生成,扩展至多模态任务。
二、模型方法
- 知识基础构建
- 节点KB:从40K节点中清洗出7,238个,用Claude 3.5生成文档。
- 工作流KB:从27K工作流中筛选出3,917个,支持JSON与代码转换,覆盖图像编辑、视频生成等任务。
- 两阶段训练框架
- 监督微调(SFT):用Qwen-Max等生成CoT推理序列,包含节点选择、工作流规划和代码生成,训练数据11,140样本。
- 强化学习(RL):采用Group Relative Policy Optimization(GRPO),设计混合奖励:
- 格式奖励((R_{format})):检查标签完整性。
- 结构奖励((R_{DAG})):验证有向无环图结构。
- 节点保真度((R_{fidelity})):惩罚幻觉或不一致节点。
- 选择精度((R_{correct})):计算节点集合重叠率。
三、实验结果
方法 | 格式有效性 | 节点级F1 | 图级F1 | ComfyBench通过率 |
---|---|---|---|---|
GPT-4o + CoT | 0.92 | 0.42 | 0.29 | 0.28 |
ComfyAgent | - | 0.20 | 0.10 | 0.56 |
ComfyUI-R1 | 0.97 | 0.62 | 0.51 | 0.67 |
- 量化指标:ComfyUI-R1在格式有效性、节点和图级匹配上显著优于基线,RL训练进一步提升性能。
- 案例分析:相比ComfyAgent,ComfyUI-R1能成功生成多图像融合工作流,避免节点未使用等问题。
四、核心贡献
- 模型创新:首个ComfyUI工作流生成大推理模型,支持长链CoT推理。
- 方法突破:两阶段训练框架与混合奖励机制,提升生成可靠性。
- 性能优势:超越闭源模型,推动AI工作流自动化发展。
关键问题
- ComfyUI-R1的核心创新点是什么?
- 答案:ComfyUI-R1是首个针对ComfyUI的自动工作流生成大型推理模型,采用“监督微调+强化学习”两阶段训练框架,并设计规则-指标混合奖励机制,确保生成工作流的格式有效性、结构正确性和节点保真度。
- 模型训练中如何处理工作流数据?
- 答案:研究团队从社区收集27K工作流,清洗后保留3,917个,每个工作流包含JSON和代码表示、功能描述。训练时通过模拟节点检索生成候选集,结合Qwen-Max等生成CoT推理序列,用于监督微调;强化学习阶段采用GRPO算法,基于混合奖励优化推理能力。
- ComfyUI-R1相比现有方法有何性能优势?
- 答案:在测试集上,ComfyUI-R1格式有效性达97%,节点级F1为0.62,图级F1为0.51,远超GPT-4o(格式有效性92%,节点级F1 0.42)和ComfyAgent(节点级F1 0.20)。在ComfyBench上,通过率67%,比ComfyAgent高11%。