当前位置: 首页 > news >正文

通义万相Wan2.5模型实测,可生成音画同步视频

图片

大家好,这里是K姐。

一个帮你追踪最新AI应用的女子。

2025云栖大会终于来啦!今年的主题是“云智一体•硅碳共生”,全球50多个国家的2000多位演讲嘉宾齐聚杭州,围绕Agentic AI与Physical AI等前沿话题展开对话,场面堪称一场科技春晚。

今天上午倍受关注的还是阿里最新的大模型——通义万相 Wan2.5-Preview 系列模型

图片

Wan2.5-Preview 系列模型是多感官叙事,采用原生多模态架构,文本、图像、视频、音频处理能力全面提升,可以直接生成音画同步的视频。

草地弹吉他

这些技术升级,既是阿里在基础模型上的长期投入,也是其面向产业应用、推动大模型生态扩展的体现。

K姐也是第一时间获得了体验资格~接下来,咱们一起看看看看实测效果。

图片

音画同频的关键:跨模态对齐

Wan2.5 提供了图像生成与视频生成两大功能,并且支持由音频搭配prompt/图片生成视频

图片

我们只需要在日常文/图生视频的提示词基础上,添加对人声、环境音效、背景音乐的描述,就可以得到音画同步的成品视频。

视频生成时长最长为10s,可以生成分辨率为1080p、24fps的高清视频。

话不多说,先放几个实测案例让大家感受下:

  • case1 综艺录制

prompt:综艺节目录制现场,舞台布置成客厅风格,柔和的暖色灯光,两张沙发面对观众摆放,中间的茶几上放着饮品和零食。一位年轻男idol坐在沙发上,穿着时尚休闲装,手里拿着话筒,说道:“迷人的话我不会说,但迷人的我正在说话”。现场观众笑声爆发,镜头切到其他嘉宾,他们一边笑一边鼓掌。

迷人的话我不会说

这段5秒的镜头中,Wan2.5 对提示词的遵循度非常高,画面细节也处理得很不错,比如客厅风格、暖色灯光、茶几上的饮品和零食。

人物说话的表情、口型都非常自然,特别是运镜时,人物还主动往嘉宾方向靠,感觉下一秒就该把话筒递过去了...

  • case2 户外摄影

上传一张蜗牛的照片

prompt:暴雨天,雨水密集地拍打在草地上,发出“沙沙”的沉闷声,夹杂着水珠溅散的轻响,四周环境空旷而湿润。

蜗牛-下雨天

密集的雨点打在蜗牛壳上,聚成大水珠流下。Wan2.5 对现实世界的理解还不错,根据图片的场景和提示词生成了匹配的环境音效,声音和画面的一致性也很不错。

  • case3 演唱会

我们上传一段歌曲的音频。

prompt:特写镜头,一位非常漂亮的女歌手站在演唱会舞台中央深情演唱。她穿着精致的礼服,长发披肩,在微风中轻轻飘动,映着舞台灯光更显动人。她双手紧握话筒,声音高亢饱满,情绪澎湃。

唱歌-野心家

视频的光影和色彩都很不错,特别是发丝光,很灵动很真实。画面中人物的口型与音频也很贴合。

Wan2.5 的音画同步不是简单的让人物嘴巴动起来,还添加了很多细节,比如头微微晃动,脖子用力时紧绷的肌肉、呼吸时肩膀的收缩与起伏,这种细节让整个画面更有生命感,仿佛真的是现场实拍。

图片

Wan2.5与Veo3对比

  • case1 美食视频

prompt:一个20岁左右的女大学生,在热闹的小吃街坐着,用筷子夹起一小块红烧肉,慢慢咀嚼,靠近镜头,轻声说道:“好吃”。声音甜美,语气轻快。背景音是小吃街人来人往嘈杂的声音。

wan2.5美食

veo3-美食

Wan2.5 和Veo3生成的画面内容质量都挺好的,但是Veo3似乎遇到BUG了,整个视频都没有声音。

  • case2 电视的演变

prompt:锁定广角镜头,从正面拍摄同一客厅,电视位于画面的中央,始终居中构图。画面展示电视在几十年间发展演变,从 1950 年代的黑白电视机,到1970 年代的木质机柜,再到1990 年代的 CRT 显示器,再到2000 年代的平板电视,最后是2020 年代的智能 OLED 电视。家具、颜色和风格也随着时代变迁而变化,复古 70 年代,简约 90 年代,现代 2000 年代,未来 2020 年代。

镜头: 35mm 电影镜头,细节清晰。

音效: 视静电声、频道切换声、遥控器点击声与时代过渡同步。

混合级别: 各时代之间平滑过渡

wan2.5电视机

Veo3电视

Wan2.5 对提示词的遵循程度高很多,电视机始终在画面的正中心,也一直采用中心构图,主题更直观。

装修风格方面,Wan2.5 各年代之间的差别并不大,这点Veo3做得更好一些。

Wan2.5 和Veo3都展示了多个时代的电视机风格,也都添加了切换时的音效。

图片

一些分享

以前的视频生成,总是声音和画面对不上,还需要在不同平台添加人声、对口型、加背景音,现在微量的提示词即可生成一段音画同步的完整视频。

Wan2.5让创作直接“可视化”和“可听化”。做短视频、虚拟主播、甚至远程教学,不需要再依赖复杂的后期,AI 就能一键完成,大大降低了创作门槛。

图片

Wan2.5 能同时对齐声音的节奏、语言的语义、画面的动作,这不仅仅是视频生成的进化,更是迈向多模态AI成熟应用的关键一步。

广告、教育、影视、游戏,过去都要靠人工配音和后期,费钱又费时。Wan2.5 把视频生成拉到生产级工具的水准,低成本高质量的虚拟内容或将全面爆发。

http://www.dtcms.com/a/415512.html

相关文章:

  • 电子商务网站开发费用调研报告网络营销方式思维导图
  • dll网站服务推荐电商网站建设
  • gRPC-Go - 高性能 gRPC 框架的 Go 实现
  • 将Gowin高云FPGA仿真库导入Modelsim中并编译
  • 百姓网网站源码宜宾网站建设价格
  • 手机版网站案例云南网上工商办事大厅
  • SpringBoot项目Excel成绩录入功能详解:从文件上传到数据入库的全流程解析
  • Excel批量导入到数据库的方法
  • 开发网站定制珠海柏泰教育官方网站建设
  • 出版物级标记语言解析
  • 集合划分:用元素交换法破解等和难题
  • 培训建设网站深圳建站公司
  • 网站规划与建设规划书wordpress个性时光轴主题
  • 个人网站备案幕布网易梦幻西游手游官方网站下载
  • 数据集 - Al-Maktabah-Al-Shamilah (伊斯兰典籍全集)
  • uC/OS-III 队列(Queue)操作
  • 速度即排名:90分以下=谷歌流量流失?
  • 企业网站空间选择什么网站可以找人做设计
  • 网站建设如何快速增加用户中山企业网站建设公司
  • 工业4.0下的边缘存储设计:数据就地处理,响应更快更安全
  • 做情诗网站私有云 搭建wordpress
  • 上海定制app开发公司杭州seo关键词优化公司
  • Photoshop - Photoshop 根据需要以最佳格式保存照片
  • 11-Redis 集合类型深度指南:从去重特性到集合运算场景落地
  • 【Redis】超级超市的仓库管理系统
  • 个人网站建设模板视频链接生成器在线
  • 网站建设 推广薪资公司网站开发工具
  • 深圳seo网站推广报价电器网站建设策划书
  • 做360网站优化快wordpress5.1下载
  • 深度学习复现:CIFAR-10 数据集任务的实现(测试集)