【ComfyUI】Wan2.2 CharacterMotion 单图角色关键词驱动视频生成
今天给大家演示一个由单图驱动角色动作生成视频的 ComfyUI 工作流 ——Wan2.2 CharacterMotion。通过上传一张图像并输入关键词描述,该流程可以自动完成图像到视频的高质量动画生成,输出具有真实感动作的角色短片。整个系统基于多模型组合设计,结合大模型对图像与语义的理解能力,实现角色视觉、动作与音频的融合表现。该工作流适合创意短片、角色预览、叙事演示等多场景,支持精细控制和高效运算。
文章目录
- 工作流介绍
- 核心模型
- Node节点
- 工作流程
- 大模型应用
- 图像关键词描述生成节点(视觉理解辅助)
- 音效情绪描述生成节点(声音语境提示)
- 使用方法
- 应用场景
- 开发与应用
工作流介绍
本工作流的目标是将单张静态图像通过自然语言描述驱动,生成具有指定动作和语义表达的视频内容。整个流程围绕角色关键词驱动展开,集成了图像嵌入、文本编码、多模型组合与采样生成等关键模块。核心设计通过 LoRA 控制、BlockSwap 模块调整、T5 文本理解和自定义采样配置实现图像与动作之间的高维关联。此流程可输出高清视频,支持多格式模型结构调整,并可拓展其他生成任务如配音、声音拟合等。

核心模型
本工作流使用了两种不同精度配置的 Wan2.2-I2V-A14B 视频生成模型作为基础框架,配合 LoRA 进行动作控制。同时引入 umt5-xxl 文本编码模型提升关键词语义理解能力。
| 模型名称 | 说明 |
|---|---|
| Wan2_2-I2V-A14B-HIGH_fp8_e4m3fn_scaled_KJ.safetensors | 用于高清视频版本生成,支持更高画质和细节还原,适合最终成片输出 |
| Wan2_2-I2V-A14B-LOW_fp8_e4m3fn_scaled_KJ.safetensors | 快速生成版本,推理速度更快,适合草图与预览 |
| Wan21_I2V_14B_lightx2v_cfg_step_distill_lora_rank64.safetensors | LoRA 模型,用于动作/姿态/风格的定向控制 |
| umt5-xxl-enc-bf16.safetensors | 文本编码器,支持多语言关键词输入与上下文理解 |
Node节点
工作流涉及的 Node 节点涵盖图像预处理、模型加载、控制参数生成、图文编码与视频采样等多个环节。以下为核心节点的功能说明:
| 节点名称 | 说明 |
|---|---|
| WanVideoModelLoader | 加载视频生成主模型,支持不同精度与模块结构 |
| WanVideoLoraSelect | 加载用于控制动作风格的 LoRA 权重模型 |
| WanVideoBlockSwap | 设置模块结构替换,用于定制网络结构或生成风格 |
| LoadWanVideoT5TextEncoder | 加载 T5 文本编码器,用于处理自然语言提示词 |
| WanVideoTextEncode | 将文字转换为视频生成所需的嵌入向量 |
| WanVideoVAELoader | 加载 VAE 模型进行图像特征提取 |
| WanVideoImageToVideoEncode | 将静态图像编码为视频初始帧嵌入 |
| WanVideoSampler | 执行视频的最终采样与合成 |
| RH_LLMAPI_NODE | 使用大模型理解图像内容并生成提示词 |
| easy showAnything / easy cleanGpuUsed | 辅助调试与资源管理节点 |
工作流程
整个工作流程从图像加载与尺寸预处理开始,随后进入模型加载、文本与图像嵌入生成、动作控制配置等阶段,最终在采样模块中生成视频。该流程支持高清与极速双分支并行处理,可灵活切换生成策略,适应不同精度与效率需求。在流程控制方面,通过 ImpactSwitch 实现不同参数组合的切换,提升模块重用率。采样阶段结合 CFG、随机种子、Loop 控制、多模态输入等,确保输出动画的可控性与高质量。
| 流程序号 | 流程阶段 | 工作描述 | 使用节点 |
|---|---|---|---|
| 1 | 图像输入与尺寸调整 | 加载用户上传图像并统一尺寸(如1536x896) | ImageResize+ |
| 2 | 文本关键词生成 | 可选使用图像生成关键词描述文本,用于提示词输入 | RH_LLMAPI_NODE |
| 3 | 模型加载(高清+极速) | 分别加载 Wan2.2 高低精度模型与对应 LoRA 权重 | WanVideoModelLoader、WanVideoLoraSelect |
| 4 | BlockSwap结构设定 | 应用自定义 block 替换参数,调节模型推理风格 | WanVideoBlockSwap、WanVideoSetBlockSwap |
| 5 | 文本编码 | 加载 T5 文本模型并将提示词编码为嵌入向量 | LoadWanVideoT5TextEncoder、WanVideoTextEncode |
| 6 | 图像嵌入生成 | 将输入图像转为适用于生成的视频嵌入表示 | WanVideoImageToVideoEncode |
| 7 | CFG与Seed设定 | 设置采样参数与随机种子,控制生成一致性与变化性 | CreateCFGScheduleFloatList、PrimitiveNode |
| 8 | 采样输出 | 输入所有控制参数与嵌入,生成目标视频帧序列 | WanVideoSampler |
| 9 | GPU清理与结果输出 | 清理缓存并输出最终采样结果 | easy cleanGpuUsed、easy showAnything |
大模型应用
图像关键词描述生成节点(视觉理解辅助)
该节点利用视觉大模型对输入图像进行内容分析,并生成用于视频驱动的关键词文本。其目标是从静态图中提取有语义价值的元素,并辅助构造提示词,提高图文一致性和生成的自然性。该节点对非专业用户尤为友好,可以自动补全关键词提示,降低 prompt 设计门槛。
| 节点名称 | Prompt信息 | 说明 |
|---|---|---|
| RH_LLMAPI_NODE | Generate a new text description based on this image and describe the picture in the following text format. It can be accompanied by light music. Do not use noisy sounds. Please only refer to the format, not the content. The entire paragraph should not exceed 100 words. Do not use any punctuation marks other than commas and periods. Text format reference: First, create a soft and stable background sound, such as the sound of gently sucking on a pacifier. Add a subtle breathing rhythm to imitate the gentle mouth movements of a newborn. Keep your voice smooth, natural and soothing. | 用于从图像中提取语义描述关键词,帮助构建自然语言提示词,驱动生成逻辑一致的视频内容。 |
音效情绪描述生成节点(声音语境提示)
该节点同样基于图像输入,但输出的目标是围绕场景或人物动作生成音效语境提示。主要用于配合图像驱动生成带声音的动画或视频,特别适用于自动配音、拟声处理或为后续声音生成节点提供前置描述。
| 节点名称 | Prompt信息 | 说明 |
|---|---|---|
| RH_LLMAPI_NODE | Describe the sound based on this picture and the text format below. The words describing the sound are used as the title. Only the format is referred to, not the text content. The full text should not exceed 10 words. The text format reference is: the gentle sucking sound of a pacifier. Do not use punctuation marks other than commas and periods. | 用于生成基于图像情绪的声音标签或描述词,辅助生成自然、拟人化的语音或背景音环境。 |
使用方法
开始节点
工作流以图像和文本为输入起点,涉及图像尺寸、关键词提示、视频长度等参数设置。部分字段通过手动输入,部分可通过图像自动提取生成。
| 字段名 | 含义 | 数据类型 |
|---|---|---|
| image | 上传的静态图像 | IMAGE |
| width / height | 输出图像尺寸(如:832x480) | INT |
| positive_prompt | 文本提示词,描述图像中角色的动作或情绪 | STRING |
| num_frames | 生成的视频帧数 | INT |
| seed | 随机种子,控制生成一致性 | INT |
结束节点
流程结束时,视频以 latent 数据形式输出,同时附带可预览图像或文本描述。最终生成的内容可以保存为草稿链接或导出文件。
| 字段名 | 含义 | 数据类型 |
|---|---|---|
| samples | 生成的视频数据(潜变量格式) | LATENT |
| output | 可视化输出,用于展示或调试 | ANY(图像/视频) |
应用场景
该工作流在实际应用中适用于内容创作、数字角色演示、游戏美术预览、AIGC 视频生成等多元场景。用户只需提供一张静态图像和关键词,即可自动生成符合描述的角色动作视频,具备极高的效率与定制化能力。尤其在原画生成、角色分镜、社交媒体短视频制作等领域,能显著降低动画制作门槛,并结合文本与视觉双模态的语义理解,提升内容表达能力。
| 应用场景 | 使用目标 | 典型用户 | 展示内容 | 实现效果 |
|---|---|---|---|---|
| 原画设计动画演示 | 将角色概念图转化为短动画 | 插画师、概念设计师 | 单人物图+关键词生成的视频 | 角色动效展示,增强设计表达 |
| AI短视频生成 | 通过关键词快速生成视频内容 | AIGC创作者、自媒体博主 | 图文输入生成剧情片段 | 快速生产社交内容 |
| 游戏角色预览 | 查看角色姿态与风格动态效果 | 游戏开发团队 | 模型静帧转动态片段 | 降低美术预演成本 |
| 虚拟人内容扩展 | 给定图片和文本生成演讲/表演片段 | 虚拟偶像团队、短视频平台 | 表情、动作、语音拟合视频 | 生成真实感虚拟表演 |
| 教学与演示 | 用于AI课程或生成流程教学 | 教学者、研究人员 | 流程输入与输出展示 | 可视化教学示例 |
开发与应用
更多 AIGC 与 ComfyUI工作流 相关研究学习内容请查阅:
ComfyUI使用教程、开发指导、资源下载
更多内容桌面应用开发和学习文档请查阅:
AIGC工具平台Tauri+Django环境开发,支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用
