当前位置: 首页 > news >正文

通义万相开源 Wan2.2-S2V-14B,实现图片+音频生成电影级数字人视频

Wan2.2-S2V-14B 是由阿里巴巴通义万相团队于 2025 年 8 月开源的一款音频驱动的视频生成模型。Wan2.2-S2V-14B 仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,支持多种图片类型和画幅。用户通过输入文本提示,可对视频画面进行控制,让画面更丰富。模型融合多种创新技术,实现复杂场景的音频驱动视频生成,支持长视频生成及多分辨率训练与推理。模型在数字人直播、影视制作、AI 教育等领域有广泛应用。

教程链接:https://go.openbayes.com/s3GyT

使用云平台:OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v

登录 http://OpenBayes.com,在「公共教程」页面,选择一键部署 「Wan2.2-S2V-14B:影视级音频驱动视频生成」教程。

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。
注意:推理步数越多,生成的效果越好,同时推理生成时间也会更长,请合理设置推理步数(示例一:推理步数为 10 时,生成视频大约需要 15 分钟左右)。

进入到模型页面后,首先在「Reference lmage」中上传一张图片,然后在「Audio file」中上传音频,此外还可以在「Pose Video (optional)」中上传姿态视频,在「Resolution (H*W)」中调整好分辨率后,点击「Start Generating」生成。

(由于平台限制,视频大家可以到「知乎-技术小白狮」同名文章内查看~)

http://www.dtcms.com/a/390750.html

相关文章:

  • windows c++环境 使用VScdoe配置opencv
  • JVM(四)-- 对象的实例化内存布局和直接内存
  • G1垃圾回收器的优势
  • 内存分配策略
  • Python采集Tik Tok视频详情,Tik TokAPI接口(json数据返回)
  • 实时通信技术大比拼:长轮询、短轮询、WebSocket 与 SSE 深度解析及实战指南
  • ICML 2025|图像如何与激光雷达对齐并互补?迈向协调的多模态3D全景分割
  • 基于Web的3D工程应用图形引擎——HOOPS Communicator技术解析
  • 【每日一问】运放的失调电压是什么?对于电路有何影响?
  • 【轨物方案】轨物科技新型储能管理系统:以AIoT技术驱动储能资产全生命周期价值最大化
  • 线性回归 vs 逻辑回归:从原理到实战的全面对比
  • HashMap的底层原理
  • 股指期货超短线如何操作?
  • 【洛谷】算法竞赛中的树结构:形式、存储与遍历全解析
  • 育苗盘补苗路径规划研究
  • API Gateway :API网关组件
  • conda激活虚拟环境
  • 重构大qmt通达信板块预警自动交易系统--读取通达信成分股
  • 25.9.19 Spring AOP
  • d38: PostgreSQL 简单入门与 Vue3 动态路由实现
  • No006:订阅化时间管理——迈向个性化、生态化的AI服务模式
  • 微服务-sentinel的理论与集成springcloud
  • C++学习:哈希表unordered_set/unordered_map的封装
  • 圆柱永磁体磁场及梯度快速计算与可视化程序
  • 种群演化优化算法:原理与Python实现
  • 基于IPDRR模型能力,每个能力的概念及所要具备的能力产品
  • NUST技术漫谈:当非结构化数据遇见状态跟踪——一场静默的技术革命
  • 在技术无人区开路,OPPO的指南针是“人”
  • AI与NPC发展过程及技术
  • Redis数据库(三)—— 深入解析Redis三种高可用架构:主从复制、哨兵与集群模式