当前位置: 首页 > news >正文

谷歌发布 Veo 3.1 视频生成模型:有声电影、长视频叙事与人物定制的实测与展望

目录

1. Veo 3.1 的三大核心功能提升

2. Veo 3.1 体验实测:音画同步惊艳,人物定制仍需优化

2.1 音画统一测试

2.2 首尾画面连贯性与长视频拼接测试

2.3 人物主角形象定制测试


谷歌最新视频生成模型 Veo 3.1 来了!北京时间 10 月 16 日,谷歌在 Gemini 应用程序接口(API)中发布了 Veo 3.1 和 Veo 3.1 Fast 付费预览版。这款新模型与前不久发布的 Sora 2 一样,新增了音频功能,迅速受到了行业的高度关注。

1. Veo 3.1 的三大核心功能提升

Veo 3.1 的此次提升主要聚焦在三大方面,旨在进一步优化 AI 视频在视听观感上的体验,并寻找实现“AI 长视频叙事”的解法:

AI 视频从默片走向有声电影:Veo 3.1 不但能够要求 AI 视频实现声音和画面的同步统一,还能够要求 AI 更好地理解画面内容,并给予合适的配乐或环境音效。

谷歌发布 Veo 3.1 视频生成模型:有声电影、长视频叙事与人物定制的实测与展望

实现长视频叙事的连贯性:Veo 3.1 可以直接设定 AI 视频的开篇画面和结尾画面。这使得短视频之间的过渡更加自然,并能够进一步控制视频的首尾观感。更具突破性的是,通过将上一个视频的最后一个画面作为下一个视频的开篇,谷歌用一种另类的方式实现了**“AI 长视频”**的无限连贯生成。

通过三张图打造人物人设:用户现在可以给 Veo 3.1 三张图片,分别为一个女性头像、一个服装参考图以及一个场景设定。根据提示词要求,Veo 3.1 可以直接通过三张画面设定 AI 人物形象,并让该人物自然地说出目标台词。

2. Veo 3.1 体验实测:音画同步惊艳,人物定制仍需优化

目前,普通用户可以在 Gemini 应用程序和 Flow 中免费使用 Veo 3.1,但使用机会有限。国内多个 AI 视频生成平台,包括 Imagine.art、Fal-ai 和 Lovart 等,已快速宣布支持 Veo 3.1 模型调用。

2.1 音画统一测试


Veo 3.1 在音画统一上的表现,给出的提示词是:“纽约街头正在下雨,突然一道闪电伴随雷声而来。”

结果:闪电和雷声基本上在同一时间出现,音画一致性达成。更细致的发现是,每一辆车开过水坑时,声音会有一个从远到近、从大到小的变化程度,效果令人惊喜。

不足:生成的视频片段时长大约在 6 秒左右,与 Sora 2 可生成 10-20 秒相比不占优势。此外,画面中除车、雨滴和闪电外,两旁的行人和树木仍是静止的,违和感较重。

谷歌发布 Veo 3.1 视频生成模型:有声电影、长视频叙事与人物定制的实测与展望

2.2 首尾画面连贯性与长视频拼接测试


通过设定首尾画面,并拼接两段视频, Veo 3.1 在连贯性和场景拓展上的能力:

测试 1:指示 Veo 3.1 生成一只虎斑猫跳上办公桌的完整跳跃弧线。结果视频前半部分自然,但在小猫跳到电脑后,突然变了另一只猫,出现了“魔法感”。

测试 2:指示 Veo 3.1 连接到第二个视频,让跳上桌的虎斑猫趴下睡着。当两个视频片段拼接在一起后,除了“魔法感”的突兀,视频与视频之间保持了连贯性,并实现了一定程度上的场景拓展,证明了其“长视频叙事”解法的可行性。

谷歌发布 Veo 3.1 视频生成模型:有声电影、长视频叙事与人物定制的实测与展望

2.3 人物主角形象定制测试


使用三张参考图设定人物主角形象的功能,给出的指令要求人物(参考图)身穿指定服装(参考图)在指定场景(参考图)漫步,并同步生成环境音效。

结果:这是所有测试中表现最差的一项。AI 视频中的人物建模感严重,服装和场景与给出的参考图片有明显差别,AI 感极重。

整体结论:此次 Veo 3.1 在音画同步以及首尾画面稳定上均给出了不错的 AI 效果,展现了谷歌在视听体验上的努力。但在用图片设定人物形象方面,AI 人设的生成效果与官网介绍仍存在差距。

http://www.dtcms.com/a/596543.html

相关文章:

  • 有做a50期货的网站青岛网站建设方案书
  • 2.10 实践练习:训练一个意图识别模型并部署为 API
  • 数据结构精讲:从零到一搞懂队列与循环队列的底层实现
  • 微信小程序开发案例 | 幸运抽签小程序(下)
  • 如何在 Windows 电脑上调试 iOS 设备上的 Safari?完整方案与实战经验分享
  • 密度聚类调参精讲
  • 场馆预约小程序拓展功能分析:技术赋能下的效率革命与商业破局
  • 【开题答辩全过程】以 二手小型电子产品商城小程序为例,包含答辩的问题和答案
  • 怎么查百度收录网站网站建设代码生成器
  • 网站建设科技建盏大师排名与落款
  • 【面经 每日一题】面试题16.25.LRU缓存(medium)
  • 网站推广常用的方法seo搜索引擎优化视频
  • XML的了解
  • 开源制品管理工具Hadess,一键安装及快速入门教程
  • 【云运维】Python基础(三)
  • MyBatis-Plus 进阶实战:不用写 XML,CRUD + 复杂查询像 “点奶茶” 一样简单
  • 野狗算法详细原理,野狗算法公式,野狗算法求解目标函数极值
  • V-Ray 渲染高效优化指南
  • 商丘网站建设的公司哪家好菏泽网站建设
  • RobotFramework框架基本功能语法
  • 120. 三角形最小路径和
  • Redis(116)Redis的内存管理如何实现?
  • 如何通过中药饮片采购平台实现安全高效的全链路供应链建立?
  • 兴县做网站的公司wordpress登陆改图标和连接
  • CSV的读写
  • 【讨论】VR + 具身智能 + 人形机器人:通往现实世界的智能接口
  • android studio 里的 activity 和 layout 是怎么关联上的
  • 临桂区建设局网站北京seo做排名
  • 东阳建设局网站自适应网站建设多少钱
  • UI创作思想总结