当前位置：首页 > news >正文

通义万相开源 Wan2.2-S2V-14B，实现图片+音频生成电影级数字人视频

news 2025/9/20 6:26:57

Wan2.2-S2V-14B 是由阿里巴巴通义万相团队于 2025 年 8 月开源的一款音频驱动的视频生成模型。Wan2.2-S2V-14B 仅需一张静态图片和一段音频，能生成电影级数字人视频，视频时长可达分钟级，支持多种图片类型和画幅。用户通过输入文本提示，可对视频画面进行控制，让画面更丰富。模型融合多种创新技术，实现复杂场景的音频驱动视频生成，支持长视频生成及多分辨率训练与推理。模型在数字人直播、影视制作、AI 教育等领域有广泛应用。

教程链接：https://go.openbayes.com/s3GyT

使用云平台：OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v

登录 http://OpenBayes.com，在「公共教程」页面，选择一键部署「Wan2.2-S2V-14B：影视级音频驱动视频生成」教程。

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本，不需要再进行手动选择。点击「继续执行」，等待分配资源。

待系统分配好资源，当状态变为「运行中」后，点击「API 地址」边上的跳转箭头，即可跳转至 Demo 页面。
若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。
注意：推理步数越多，生成的效果越好，同时推理生成时间也会更长，请合理设置推理步数（示例一：推理步数为 10 时，生成视频大约需要 15 分钟左右）。

进入到模型页面后，首先在「Reference lmage」中上传一张图片，然后在「Audio file」中上传音频，此外还可以在「Pose Video (optional)」中上传姿态视频，在「Resolution (H*W)」中调整好分辨率后，点击「Start Generating」生成。

（由于平台限制，视频大家可以到「知乎-技术小白狮」同名文章内查看～）

http://www.dtcms.com/a/390750.html

相关文章：

windows c++环境使用VScdoe配置opencv

JVM（四）-- 对象的实例化内存布局和直接内存

G1垃圾回收器的优势

内存分配策略

Python采集Tik Tok视频详情，Tik TokAPI接口（json数据返回）

实时通信技术大比拼：长轮询、短轮询、WebSocket 与 SSE 深度解析及实战指南

ICML 2025|图像如何与激光雷达对齐并互补？迈向协调的多模态3D全景分割

基于Web的3D工程应用图形引擎——HOOPS Communicator技术解析

【每日一问】运放的失调电压是什么？对于电路有何影响？

【轨物方案】轨物科技新型储能管理系统：以AIoT技术驱动储能资产全生命周期价值最大化

线性回归 vs 逻辑回归：从原理到实战的全面对比

HashMap的底层原理

股指期货超短线如何操作？

【洛谷】算法竞赛中的树结构：形式、存储与遍历全解析

育苗盘补苗路径规划研究

API Gateway ：API网关组件

conda激活虚拟环境

重构大qmt通达信板块预警自动交易系统--读取通达信成分股

25.9.19 Spring AOP

d38: PostgreSQL 简单入门与 Vue3 动态路由实现

No006：订阅化时间管理——迈向个性化、生态化的AI服务模式

微服务-sentinel的理论与集成springcloud

C++学习：哈希表unordered_set/unordered_map的封装

圆柱永磁体磁场及梯度快速计算与可视化程序

种群演化优化算法：原理与Python实现

基于IPDRR模型能力，每个能力的概念及所要具备的能力产品

NUST技术漫谈：当非结构化数据遇见状态跟踪——一场静默的技术革命

在技术无人区开路，OPPO的指南针是“人”

AI与NPC发展过程及技术

Redis数据库（三）—— 深入解析Redis三种高可用架构：主从复制、哨兵与集群模式