当前位置：首页 > news >正文

DreaMoving：基于扩散模型的可控视频生成框架

news 2025/8/12 5:57:04

本文转载自：DreaMoving：基于扩散模型的可控视频生成框架 - Hello123

一、核心定位解析

DreaMoving 是由生数科技研发的扩散模型视频生成框架，专注人物动作定制化生成。通过视频控制网（Video ControlNet）和内容引导器（Content Guider）技术，实现高精度身份保持与动作控制，支持文本 / 图像驱动人物舞蹈、运动等动态视频创作。

官网链接：https://dreamoving.github.io/dreamoving

二、核心功能亮点

2.1、精准动作控制

姿势序列驱动：输入骨骼关键点或深度图序列，生成连贯人物动作

身份一致性：面部参考图像锁定主体特征，避免动作迁移中的身份失真

2.2、多模态驱动支持

文本描述：定义场景风格（如 “赛博朋克舞台”）

图像参考：指定服装、环境等视觉元素

混合输入：结合文本与图像实现精细化控制

2.3、影视级输出能力

1080P 分辨率输出

30fps 流畅帧率

支持无缝循环动作生成

三、核心应用场景

3.1、影视特效制作

替换替身演员动作，实现主演面部与特技动作的精准融合，降低实拍风险。

3.2、虚拟时尚展示

生成模特多角度服装展示视频，支持动态走秀与 360° 细节呈现。

3.3、个性化内容创作

自媒体用户快速制作角色舞蹈视频，适配短视频平台传播需求。

3.4、虚拟人驱动

为数字人主播生成自然口型与肢体动作，提升直播真实感。

3.5、教育演示

还原历史人物舞蹈或运动姿态，用于文化教学场景。

四、操作指南

4.1、访问平台

网页端：https://www.modelscope.cn/studios/vigen/video_generation

4.2、输入控制信号

上传面部参考图（必选）

提供姿势序列（OpenPose 格式）或深度图

4.3、设定创作参数

输入文本描述场景（例：“霓虹灯光下的机械舞”）

调整动作幅度与速度滑杆

4.4、生成与优化

点击生成等待约 2 分钟

支持分镜再生局部优化

五、产品深度评测

5.1、核心优势

✅ 身份保持能力：跨帧面部特征一致性达 98%，行业领先

✅ 动作自然度：复杂舞蹈动作过渡流畅性超越 Runway Gen-2

✅ 开源适配性：支持对接 Stable Diffusion 生态插件

✅ 硬件门槛低：消费级显卡（RTX 3060）可流畅运行

5.2、现存不足

⚠️ 场景复杂度局限：多人互动场景易出现肢体穿插错误

⚠️ 物理模拟缺失：布料动态模拟精度不足（如飘动裙摆失真）

⚠️ 商业化限制：企业级商用需单独授权（$599 / 月起）

六、竞品对比分析

维度	DreaMoving	Runway Gen-3 Alpha	阿里 MotionAgent
核心技术	视频控制网 + 身份引导器	时空扩散架构	多模型串联流水线
生成精度	1080P@30fps（人物特化）	1280x768@24fps	720P@25fps
控制维度	姿势 / 面部 / 文本三轴控制	文本 + 图像风格迁移	剧本驱动生成
身份保持	跨帧一致性 98%	85%（动态场景易失真）	依赖剧照连贯性
生成效率	10 秒 / 2 分钟（1080P）	5 秒 / 1 分钟（计费按秒）	全流程约 15 分钟
商用成本	本地部署免费 / 云服务 $299 起	$0.5 / 秒（Alpha 版）	API 调用按量计费