当前位置: 首页 > news >正文

【ComfyUI】HiDream E1.1 Image Edit带来更高精度的图像与文本编辑

今天带来的是一个基于 HiDream 模型 的 ComfyUI 图像编辑工作流,它通过 InstructPix2Pix 的方式对输入图像进行细节修改,重点展示了如何结合强大的文本编码器和扩散模型,在保持原图主体的前提下完成局部的自然化调整。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

效果演示中,人物的发型被精准修改为自然散落的效果,同时背景与整体画面保持一致性,让读者直观地感受到工作流在图像生成与编辑中的应用价值。

文章目录

  • HiDream ComfyUI 图像编辑工作流
    • 工作流介绍
    • 核心模型
    • Node 节点
  • 工作流程
  • 应用场景
  • 开发与应用

HiDream ComfyUI 图像编辑工作流

工作流介绍

该工作流基于 HiDream-E1 扩散模型和多种文本编码器组合构建而成,旨在通过文本指令直接修改现有图像局部内容。其核心思路是加载预训练的 UNet 模型、VAE 解码器与多路 CLIP/T5/LLama 编码器,结合 InstructPix2Pix 条件生成方式,实现自然、高保真的局部修改。整个流程由模型加载、图像输入、Prompt 提示、采样生成与最终保存五大环节组成,确保从输入到输出的链路清晰且高效。

在这里插入图片描述

核心模型

核心模型的配置围绕 UNet 扩散模型VAE 模型多模态文本编码器展开。HiDream 的扩散模型提供了稳定的潜空间生成能力,VAE 模块用于潜变量与图像的解码转换,而 QuadrupleCLIPLoader 同时引入了 CLIP、T5 以及 LLama 编码器,使得文本指令在风格与语义上更具多样性与准确性。这些模型的配合保证了图像修改过程的可控性与效果还原度。

模型名称说明
hidream_e1_1_bf16.safetensorsHiDream-E1 扩散模型,负责潜空间生成与迭代采样
ae.safetensorsVAE 模型,用于潜变量与图像之间的解码与还原
clip_g_hidream.safetensorsCLIP 文本编码器 G 版本,强化语义理解
clip_l_hidream.safetensorsCLIP 文本编码器 L 版本,提升细节捕捉
t5xxl_fp8_e4m3fn_scaled.safetensorsT5-XXL 编码器,增强复杂指令的处理能力
llama_3.1_8b_instruct_fp8_scaled.safetensorsLLama 指令模型,用于处理自然语言提示并转化为控制条件

Node 节点

节点的设计涵盖了输入、文本编码、条件构建、采样与输出等完整链路。LoadImage 节点负责图像的读取,CLIPTextEncode 将正向与负向提示转化为条件,InstructPixToPixConditioning 则结合输入图像与提示生成潜空间条件。DualCFGGuiderSamplerCustomAdvanced 节点共同完成扩散采样,最后通过 VAEDecode 将潜变量还原为最终图像并由 SaveImage 保存。节点之间的连接逻辑保证了文本提示、图像输入和生成控制的一致性,从而实现高质量的局部编辑。

节点名称说明
LoadImage读取输入图像作为编辑基底
CLIPTextEncode (Positive/Negative)将文本提示转化为条件编码
InstructPixToPixConditioning将图像与提示结合,形成潜空间条件
DualCFGGuider控制正向与负向提示的平衡,增强生成可控性
RandomNoise初始化扩散过程所需的噪声输入
SamplerCustomAdvanced自定义采样过程,生成潜空间结果
VAEDecode将潜变量解码为图像输出
SaveImage保存生成的最终图像

工作流程

该工作流的执行路径从模型加载到最终图像输出,环环相扣。首先由 QuadrupleCLIPLoader、UNetLoader 与 VAELoader 完成核心模型的加载,确保扩散、解码与文本理解的能力就绪。随后,LoadImage 节点导入原始图像,经过 ImageScaleToTotalPixels 调整至合适分辨率,为后续处理奠定基础。文本提示通过 CLIPTextEncode 编码为正向与负向条件,进入 InstructPixToPixConditioning,结合输入图像与 VAE 生成潜在条件。此后,RandomNoise 初始化扩散噪声,配合 KSamplerSelect 与 BasicScheduler 定义采样策略,再由 DualCFGGuider 对条件权重进行平衡,最终在 SamplerCustomAdvanced 中完成潜变量采样。生成结果由 VAEDecode 还原为图像,并通过 SaveImage 保存。整个流程既强调了可控性,也保证了生成结果的细腻程度。

流程序号流程阶段工作描述使用节点
1模型加载加载文本编码器、扩散模型与 VAE,为工作流提供基础能力QuadrupleCLIPLoader, UNETLoader, VAELoader
2图像输入读取原始图像并调整分辨率LoadImage, ImageScaleToTotalPixels
3提示处理将正向与负向文本提示转化为条件编码CLIPTextEncode (Positive/Negative)
4条件构建结合输入图像、提示与 VAE 输出潜空间条件InstructPixToPixConditioning
5采样配置定义采样器与调度器,并加入随机噪声RandomNoise, KSamplerSelect, BasicScheduler
6指令引导控制正负向条件权重,提升生成可控性DualCFGGuider
7潜变量采样完成潜空间的采样与生成SamplerCustomAdvanced
8解码与输出将潜变量还原为图像并保存VAEDecode, SaveImage

应用场景

该工作流的设计适用于多种实际场景。对于摄影后期,可以快速对局部细节进行调整,例如修改发型、服饰或光影效果,同时保持整体画面不变。在插画与二次元创作中,能够通过文本提示灵活实现风格细化,提升作品的表达力。在影视与广告制作中,利用 InstructPix2Pix 条件编辑,能减少重复拍摄成本,快速生成替代镜头或补充画面。此外,在 AI 教育与研究领域,该工作流也是教学范例,能帮助学习者理解文本引导扩散模型的工作机制。

应用场景使用目标典型用户展示内容实现效果
摄影后期调整局部细节,优化照片表现力摄影师、修图师人物发型、服装纹理真实自然的修改效果
插画创作增强风格化表达,快速迭代设计插画师、CG艺术家二次元角色、背景细化高度个性化的艺术效果
影视广告替代镜头生成,节省制作成本影视制作人、广告设计师局部画面修改或增强高效低成本的镜头替换
学术研究探索文本驱动图像生成机制研究人员、学生模型可控性实验可复现的研究范例
教学培训展示 AI 图像生成工作原理教师、教育机构可视化工作流案例直观理解生成原理

开发与应用

更多 AIGC 与 ComfyUI工作流 相关研究学习内容请查阅:

ComfyUI使用教程、开发指导、资源下载

更多内容桌面应用开发和学习文档请查阅:

AIGC工具平台Tauri+Django环境开发,支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用


文章转载自:

http://C95Sdxhg.ckqng.cn
http://ny3lOuxN.ckqng.cn
http://lhdQgW9M.ckqng.cn
http://aUuPBQkS.ckqng.cn
http://DyLoqU1R.ckqng.cn
http://LF7wcU2U.ckqng.cn
http://j6EXBLDG.ckqng.cn
http://rqR3Lnvt.ckqng.cn
http://cdpoknpA.ckqng.cn
http://chGROUT6.ckqng.cn
http://JH2ypE5E.ckqng.cn
http://yDCs7BEH.ckqng.cn
http://A40woN7Y.ckqng.cn
http://gAWaeHaI.ckqng.cn
http://vWTY4Dvl.ckqng.cn
http://FDtMIF92.ckqng.cn
http://LvLHpPec.ckqng.cn
http://Hd1h6oXq.ckqng.cn
http://0Mu85ffz.ckqng.cn
http://TwvFJQ7g.ckqng.cn
http://sQ9xuaBl.ckqng.cn
http://i53iG64k.ckqng.cn
http://IioeJFO2.ckqng.cn
http://jiqZXjRw.ckqng.cn
http://grhIVbDc.ckqng.cn
http://YK1MkF2i.ckqng.cn
http://SYlktpDH.ckqng.cn
http://GlIqtoHb.ckqng.cn
http://8mnaLsNs.ckqng.cn
http://6jn6iVao.ckqng.cn
http://www.dtcms.com/a/378974.html

相关文章:

  • MySQL 数据库_01
  • Redis 大 Key 与热 Key:生产环境的风险与解决方案
  • (k8s)Kubernetes 资源控制器关系图
  • 华为云/本地化部署K8S-查看容器日志
  • 探索大语言模型(LLM):Open-WebUI的安装
  • 泛型的学习
  • ESP32 I2S音频总线学习笔记(七):制作一个录音播放器
  • Shell编程:计算Linux主机用户id总和
  • 【Leetcode】高频SQL基础题--196.删除重复的电子邮箱
  • SpreadJS V18.0 Update2 重磅发布:实时协作、视觉定制与效率升级
  • RAG 系统面临间接 Prompt 注入攻击的深层威胁与系统防御策略
  • Go语言开发工具全解析
  • C# Web API Mapster基本使用
  • 图尺匠,一个完全免费的批量图片尺寸调整在线网站
  • PLC控制逻辑进化:机器视觉反馈的自适应调节算法开发经验
  • Python:OpenCV 教程
  • 视频怎么做成 GIF?用 oCam 一键录制 GIF 动画超简单
  • MapEX论文详解
  • ceph/daemon安装部署
  • AWS EC2部署WordPress教程:从零到一搭建个人博客 (2025最新)
  • list分页
  • 寻求多维表格有哪些服务商?Teable、飞书、WPS、简道云和Airtable
  • 6-获取磁盘分区信息
  • GRASP 实验室研究 论文解读 | 机器人交互:基于神经网络引导变分推理的快速失配估计
  • 元宇宙与金融创新:虚实融合下的金融服务新形态
  • 【基于协同过滤的校园二手交易平台】
  • Oracle APEX 定型文(快速选取功能)
  • 小说创作中的时间轴体验设计:事序图交互与用户体验优化
  • Liunx执行source /etc/profile 报错, -bash: HISTTIMEFORMAT: readonly variable
  • js的事件循环机制的理解