当前位置：首页 > news >正文

【ComfyUI】Wan2.2 动态服饰描述驱动换装图生视频

news 2025/11/8 14:38:45

今天给大家演示一个强大的 ComfyUI 工作流 —— Wan2.2 动态服饰描述驱动换装图生视频。这个工作流结合了多模态输入、语言模型驱动的图像生成、视频帧插值和音画合成，能根据输入的自然语言描述为人物图像生成对应服饰变换，并输出动态视频。整个过程无需手动干预，仅通过描述服装即可完成“从图到视频”的全过程换装生成。

文章目录

工作流介绍
- 核心模型
- Node节点
工作流程
大模型应用
- 文本处理与拼接模块
- Qwen2.5 文本理解模型
- RH_Captioner 图像语义标注模型
- RH_LLMAPI_NODE 外部推理节点
- 文本处理与拼接模块
使用方法
应用场景
开发与应用

工作流介绍

本工作流实现了由文字描述动态驱动人物服装变化并自动生成视频的完整流程。用户输入一张原始人物图像，再提供一段用于描述换装样式的文字，系统会自动解析、建模并执行换装渲染，最终输出带有自然换装动画的视频成品。该流程的最大亮点在于大模型对文字内容的高理解能力，搭配精心组合的节点，使图像内容与描述高度一致，实现从静态图像到动态视频的无缝转换。

在这里插入图片描述

在整个流程中，多个模块协同运作：图像加载与调整、服饰文字分析、LLM文字编码、图像生成与帧插补、视频合成输出等，每一步都精准有序。以下是工作流中核心模型与关键节点的详细概述。

核心模型

本工作流依赖于 ComfyUI 中多个高性能图像和语言处理模型，核心包括 Wan 系列视频生成模型、Qwen2.5 文本大模型、图像编码器和解码器。这些模型负责对服饰描述的理解、图像潜空间的生成与还原、动态转换以及视频输出的全部过程，彼此配合紧密，确保最终结果的清晰度、风格统一性和动画流畅度。

模型名称	说明
RHHiddenNodes	模型集中管理节点，用于统一加载 Wan 系列模型，包括 VAE、TextEncoder、VideoModel 等
Qwen2.5	文字理解大语言模型，用于解析用户提供的服饰描述，生成图像条件编码
WanVideoTextEncode	文本编码器，将语言输入转化为图像生成条件
WanVideoImageToVideoEncode	图像序列编码模块，支持从图像到潜空间转换
WanVideoSampler	视频生成采样器，基于条件输入执行帧采样
WanVideoDecode	视频图像解码器，将采样结果还原为清晰图像

Node节点

整个工作流由多个功能明确的 Node 节点构成，每个节点承担特定职责，贯穿数据处理、模型推理、帧合成等各个环节。以下列出关键节点及其功能说明：

节点名称	说明
LoadImage	载入用户上传的人物图像
JWStringReplace	动态替换文本变量，用于输入描述重构
RH_Captioner	解析图像内容生成辅助提示词
RH_LLMAPI_NODE	启动外部语言大模型进行问答推理
RIFE VFI	视频帧插值，提升输出视频的平滑度
VHS_VideoCombine	合成图像帧为视频文件
MathExpression	用于设置动态参数，如插帧倍数、持续时间等
INTConstant	控制流程中固定的整数参数输入
Text Concatenate	拼接多段文字内容，统一输出给模型使用
Note	节点注释说明，便于结构理解与调试

工作流程

整个工作流严格遵循图像→语言→潜变量→采样→合成的顺序，层层递进，确保生成视频的逻辑性和连贯性。用户上传一张人物图后，工作流先对原图进行内容解析，结合用户输入的服饰描述，利用大语言模型提取语义并生成可用于视频建模的潜在表示。接着通过一系列图像和视频生成模块，对描述进行可视化转换，最终输出流畅自然的换装视频，兼顾风格统一性与换装精准度。

流程序号	流程阶段	工作描述	使用节点
1	输入准备	加载用户上传图像	LoadImage
2	内容理解	分析原图生成图像提示词	RH_Captioner
3	语义解析	使用大模型解析服饰描述	Qwen2.5
4	文本编码	将解析内容转为图像潜变量	WanVideoTextEncode
5	图像编码	生成换装图像序列潜变量	WanVideoImageToVideoEncode
6	图像采样	执行视频帧内容采样	WanVideoSampler
7	图像解码	还原清晰帧图像	WanVideoDecode
8	插帧处理	补全过渡帧，提升视频流畅度	RIFE VFI
9	视频输出	将图像帧合成为完整视频	VHS_VideoCombine

大模型应用

文本处理与拼接模块

文本节点在整个工作流中承担描述信息拼接与变量替换的功能，用于将多段输入文本整合为完整的提示词（Prompt），保障语义输入的完整性与可控性。

节点名称	Prompt信息	说明
服装	请根据以下输入生成一段完整的服装搭配短句描述，要求句式自然优雅、画面感强、风格统一、细节具象，可直接用于 AI 视频或角色造型关键词。输入信息：服装风格主题（Style）：例如 “哥特”、“宫廷”、“赛博朋克”、“东方礼服”、“夏日清透”、“未来装甲”等；性别/身份（Identity）：例如 “女性贵族”、“机械舞者”、“未来战士”、“黑发少女”等；质感或氛围（Mood）：例如 “暗黑浪漫”、“典雅梦幻”、“冷艳锋利”、“温柔复古”。输出要求：句式结构为一句完整的服装描述句，不分段；内容要包含服装主件 + 层次材质 + 局部装饰 + 配件点缀四个层面；语言应充满视觉细节，可带轻微动词（如“缠绕”“铺陈”“闪烁”“垂落”），增强画面感；长度控制在 50～100 字之间。示例输入： Style：暗红哥特 Identity：黑发贵族女子 Mood：神秘优雅、带微光暗影示例输出：暗红色哥特礼服以酒红天鹅绒铺陈，胸口鸡心领嵌黑蕾丝choker，高腰银链盘绕成荆棘纹，袖口如教堂彩窗般镂空闪光，裙裾层叠黑纱绽放暗纹玫瑰，指尖执黑羽折扇，耳畔红宝石耳坠在烛影间轻晃。本次需要处理的服装关键信息是 $Cl o t h$	文本节点在整个工作流中承担描述信息拼接与变量替换的功能，用于将多段输入文本整合为完整的提示词（Prompt），保障语义输入的完整性与可控性。

Qwen2.5 文本理解模型

Qwen2.5 是工作流中负责理解用户文字描述的核心语言模型。它将自然语言中的服饰特征、风格细节和动作要求转化为结构化的图像生成条件，使后续视频模型能够精准响应描述内容。

节点名称	Prompt信息	说明
Qwen2.5	（Prompt内容嵌入于节点配置中）	Qwen2.5 是工作流中负责理解用户文字描述的核心语言模型。它将自然语言中的服饰特征、风格细节和动作要求转化为结构化的图像生成条件，使后续视频模型能够精准响应描述内容。

RH_Captioner 图像语义标注模型

该节点用于对输入人物图像进行语义解析，提取图像内容标签并生成基础描述，为大语言模型提供视觉语境提示，保证生成结果的逻辑一致性。

节点名称	Prompt信息	说明
RH_Captioner	（Prompt内容嵌入于节点配置中）	该节点用于对输入人物图像进行语义解析，提取图像内容标签并生成基础描述，为大语言模型提供视觉语境提示，保证生成结果的逻辑一致性。

RH_LLMAPI_NODE 外部推理节点

该节点通过 API 形式调用外部大语言模型，执行文本生成与上下文重构任务，用于辅助服饰描述分析与场景文本补全。

节点名称	Prompt信息	说明
RH_LLMAPI_NODE	你是一个AI视频提示词专家，我需要你帮我根据参考图生成让图像动起来的提示词，要求：提示词=主体(主体描述)+场景(场景描述)+运动(运动描述)+镜头语言+氛围词+风格化主体描述:主体描述是对主体外观特征细节的描述，可通过形容词或短句列举，例如“一位身着少数民族服饰的黑发苗族少女”、“一位来自异世界的飞天仙子，身着破旧却华丽的服饰，背后展开一对由废墟碎片构成的奇异翅膀”。场景描述:场景描述是对主体所处环境特征细节的描述，可通过形容词或短句列举运动描述:运动描述是对运动特征细节的描述，包含运动的幅度、速率和运动作用的效果，例如“猛烈地摇摆”、“缓慢地移动”、“打碎了玻璃”。镜头语言:镜头语言包含景别、视角、镜头、运镜等，常见镜头语言详见下方提示词词典。氛围词:氛围词是对预期画面氛围的描述，例如“梦幻”、“孤独”、“宏伟"，常见氛围词详见下方提示词词典。风格化:风格化是对画面风格语言的描述，例如“赛博朋克”、"勾线插画”、“废土风格”，常见风格化详见下方提示词词典。参考案例如下： <br>一位身穿轻盈白色连衣裙的长发美女，肤色白皙，眼神温柔，微笑着，神情宁静。在金色的沙滩上，阳光明媚，海浪轻拍岸边，远处是碧蓝的大海与无边的天空交接，海风轻拂。她轻轻地在沙滩上步行，步伐优雅而缓慢，时而低头踩踏着海水，留下清晰的脚印，时而抬起头看向远方，微风吹动她的长发。镜头采用中景，稍微偏低的视角，以侧面跟随镜头运作，画面随她的步伐缓缓推进。镜头会偶尔拉近，捕捉她面部的柔和表情和细微的动作变化。宁静、柔和、浪漫、梦幻。清新自然的摄影风格，带有暖色调，画面略带柔焦效果，给人一种温暖的海边度假感。<br> 请为我按照要求让图像动起来，提示词要求简洁通顺连贯，文字要求50字以内	该节点通过 API 形式调用外部大语言模型，执行文本生成与上下文重构任务，用于辅助服饰描述分析与场景文本补全。

文本处理与拼接模块

文本节点在整个工作流中承担描述信息拼接与变量替换的功能，用于将多段输入文本整合为完整的提示词（Prompt），保障语义输入的完整性与可控性。

节点名称	Prompt信息	说明
Text Multiline	请根据以下输入信息，生成一段完整的中文视频关键词描述。输出的句子需具备电影镜头语言感，融合动作、服装变换与环境光影，让画面自然流动、服装演化有顺序、氛围与色调统一。输入信息：当前画面描述（Theme）： $T h e m e$ 目标服装描述（Cloth）： $Cl o t h$ 生成要求：镜头语言（Camera Motion）：根据 $T h e m e$ 场景设计镜头运动方式，例如“镜头缓缓跟随”“环绕推进”“从下至上推轨”“缓慢拉远”等。镜头要与人物动作同步，增强空间感与时间感。人物动作（Action Flow）：从 $T h e m e$ 提取人物的核心行为（如行走、转身、抬头、回望、伸手、跃起等），动作幅度不要过大。通过细节动作（如“裙摆轻晃”“发丝随风”）表现自然节奏。服装变换（Outfit Transition）：结合 $Cl o t h$ 的材质、结构和风格特征，设计一个具备顺序与方向的动态换装过程（例如“从肩部向下蔓延”“由裙摆向上卷起”“光线掠过染成暗红”）。需写出变换的起点、方向与视觉触发（风、光、能量、粒子等）。光影氛围（Lighting & Mood）：根据服装风格匹配环境光线变化（如暗红礼服配烛光与阴影、白纱配晨光与微尘）。可加入细节元素，如“风吹散发丝”“烛光闪烁”“灰尘漂浮”“能量微光涌动”。输出要求：输出一条完整的中文句子（不分段）；语言具体、具象、流畅，有视频执行感；同时体现人物动作、镜头运动、服装变化与光影氛围；字数不超过200字。示例输出：镜头缓缓跟随女子前行的脚步，光线从她的肩头滑落，步伐间衣料自颈侧向下蔓延，白裙的光泽被暗红吞没，胸前染出鸡心领与黑色蕾丝choker，高腰处银链闪烁如荆棘缠绕，裙体层层叠起酒红天鹅绒与黑纱，袖口镂空花纹映出微光，黑羽折扇在手中微晃，镜头缓慢拉远，红宝石耳坠在暗影中摇曳出冷冽的华丽感。	文本节点在整个工作流中承担描述信息拼接与变量替换的功能，用于将多段输入文本整合为完整的提示词（Prompt），保障语义输入的完整性与可控性。

使用方法

开始节点

字段名	含义	数据类型
image	输入原始人物图像	str.String
text_prompt	用户输入的服饰描述文本	str.String
aspect_ratio	图像比例设置	int.Integer
scale_to_length	视频帧长度	int.Integer

结束节点

字段名	含义	数据类型
video_output	输出生成的视频文件路径	draft_url
preview	预览生成的视频帧内容	image.Image

应用场景

该工作流广泛适用于数字服装设计、虚拟试衣、电商模特展示、角色扮演素材制作等场景，特别适合需要高效生成服饰视觉内容的行业用户。通过仅提供一张图像和一句文字描述，用户便能快速获得完整的动态换装视频，极大提升内容生产效率。

应用场景	使用目标	典型用户	展示内容	实现效果
虚拟试衣换装	用户通过文字快速试穿各种服饰	电商平台、时尚博主	换装演示视频	基于图像和描述自动合成动态换装视频
角色扮演内容生成	将真人图像变换为指定风格服装	二次元创作者、视频内容制作者	动漫风、国风、未来感造型展示	语义驱动生成定制服饰动画
AI模特宣传片	利用模型快速生成产品展示	服装品牌商、广告代理	高质感视频模特演绎	实现从照片到动态产品展示自动化

开发与应用

更多 AIGC 与 ComfyUI工作流相关研究学习内容请查阅：

ComfyUI使用教程、开发指导、资源下载

更多内容桌面应用开发和学习文档请查阅：

AIGC工具平台Tauri+Django环境开发，支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用

查看全文

http://www.dtcms.com/a/582993.html