当前位置：首页 > news >正文

[论文阅读] 人工智能 | ComfyUI-R1: Exploring Reasoning Models for Workflow Generation

news 2025/9/17 0:53:16

在这里插入图片描述

论文信息

arXiv:2506.09790 (cross-list from cs.CL)
ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
Comments: Work in progress. Try it out in ComfyUI-Copilot this https URL
Subjects: Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Software Engineering (cs.SE)

一段话总结

论文介绍了ComfyUI-R1这一首个用于自动工作流生成的大型推理模型，其通过构建包含4K工作流的知识库，采用“监督微调+强化学习”的两阶段训练框架，结合规则-指标混合奖励机制，实现了对ComfyUI工作流的长链思维推理生成。实验显示，7B参数的ComfyUI-R1格式有效性达97%，节点级和图级F1分数显著优于GPT-4o等闭源模型，在ComfyBench上通过率达67%，展现了长链推理在AI艺术创作中的潜力。

思维导图

在这里插入图片描述

详细总结

一、研究背景与目标

ComfyUI的挑战：作为低代码AI工作流框架，ComfyUI拥有超400万活跃用户和12K组件，但构建有效工作流需协调大量节点，新用户面临高门槛。
现有方法局限：依赖GPT-4o等闭源模型，仅聚焦文本到图像生成，生成JSON常含格式错误或幻觉节点。
研究目标：提出ComfyUI-R1，通过长链思维推理实现自动工作流生成，扩展至多模态任务。

二、模型方法

知识基础构建
- 节点KB：从40K节点中清洗出7,238个，用Claude 3.5生成文档。
- 工作流KB：从27K工作流中筛选出3,917个，支持JSON与代码转换，覆盖图像编辑、视频生成等任务。
两阶段训练框架
- 监督微调（SFT）：用Qwen-Max等生成CoT推理序列，包含节点选择、工作流规划和代码生成，训练数据11,140样本。
- 强化学习（RL）：采用Group Relative Policy Optimization（GRPO），设计混合奖励：
  - 格式奖励（(R_{format})）：检查标签完整性。
  - 结构奖励（(R_{DAG})）：验证有向无环图结构。
  - 节点保真度（(R_{fidelity})）：惩罚幻觉或不一致节点。
  - 选择精度（(R_{correct})）：计算节点集合重叠率。

三、实验结果

方法	格式有效性	节点级F1	图级F1	ComfyBench通过率
GPT-4o + CoT	0.92	0.42	0.29	0.28
ComfyAgent	-	0.20	0.10	0.56
ComfyUI-R1	0.97	0.62	0.51	0.67

量化指标：ComfyUI-R1在格式有效性、节点和图级匹配上显著优于基线，RL训练进一步提升性能。
案例分析：相比ComfyAgent，ComfyUI-R1能成功生成多图像融合工作流，避免节点未使用等问题。

四、核心贡献

模型创新：首个ComfyUI工作流生成大推理模型，支持长链CoT推理。
方法突破：两阶段训练框架与混合奖励机制，提升生成可靠性。
性能优势：超越闭源模型，推动AI工作流自动化发展。

关键问题

ComfyUI-R1的核心创新点是什么？
- 答案：ComfyUI-R1是首个针对ComfyUI的自动工作流生成大型推理模型，采用“监督微调+强化学习”两阶段训练框架，并设计规则-指标混合奖励机制，确保生成工作流的格式有效性、结构正确性和节点保真度。
模型训练中如何处理工作流数据？
- 答案：研究团队从社区收集27K工作流，清洗后保留3,917个，每个工作流包含JSON和代码表示、功能描述。训练时通过模拟节点检索生成候选集，结合Qwen-Max等生成CoT推理序列，用于监督微调；强化学习阶段采用GRPO算法，基于混合奖励优化推理能力。
ComfyUI-R1相比现有方法有何性能优势？
- 答案：在测试集上，ComfyUI-R1格式有效性达97%，节点级F1为0.62，图级F1为0.51，远超GPT-4o（格式有效性92%，节点级F1 0.42）和ComfyAgent（节点级F1 0.20）。在ComfyBench上，通过率67%，比ComfyAgent高11%。