主打社交应用,OpenAI发布视频生成模型Sora2,开启全新互动体验
从Sora到Sora 2,视频生成的新纪元
2024年2月,OpenAI推出的Sora模型被誉为视频生成领域的“GPT-1时刻”,它首次让视频生成展现出惊艳的效果,物体持久性等基础能力通过扩展预训练计算能力得以实现。如今,OpenAI再次突破技术边界,重磅推出Sora 2,被认为是视频生成领域的“GPT-3.5时刻”。
而本次Sora 2视频的宣传片,直接采用 OpenAI CEO 原型来生成视频,把效果简直拉满了。Sora 2不仅大幅提升了视频生成的质量和真实感,还在物理世界模拟、可控性和多模态生成方面实现了质的飞跃。
Sora 2的核心亮点:更真实的物理世界模拟
与前代模型相比,Sora 2在世界模拟能力上取得了突破性进展。它能够精准模拟复杂的物理动态,例如:
奥运会级别的体操动作:从桨板上的后空翻到猫咪抓物的三周半跳,Sora 2能够细腻呈现浮力和刚度等物理特性。
真实的失败场景:以往的视频生成模型往往“过于乐观”,会自动修正错误(如投篮不中自动变成命中)。Sora 2则不同,如果篮球运动员投篮不中,球会真实地从篮板反弹,遵循物理定律。这种“模拟失败”的能力对于构建真实世界模拟器至关重要。
隐式智能体行为:Sora 2的“错误”更像是内部智能体基于物理规律的自然反应,而非模型的缺陷,展现出更高的真实感和逻辑性。
这些特性让Sora 2不仅仅是视频生成工具,更是一个接近现实世界的通用模拟器,为未来AI理解物理世界奠定了基础。
强大的可控性与多风格生成
Sora 2在可控性和风格多样性上也令人惊叹:
-
多镜头复杂指令:Sora 2能够精确执行跨越多个镜头的指令,同时保持世界状态的一致性,无论是写实风格、电影风格还是动漫风格,都游刃有余。
-
多模态生成:作为一个通用的视频音频生成系统,Sora 2不仅能生成高质量的视频,还能创建逼真的背景音景、语音和音效,打造沉浸式体验。
-
现实元素注入:通过“客串”功能,用户可以上传自己的音视频片段,Sora 2能够将其精准融入任何生成场景,无论是人类、动物还是物体,都能以惊人保真度呈现。
这些功能让Sora 2成为一个高度灵活的创作工具,适用于从个人娱乐到专业影视制作的多种场景。
Sora 2的社交应用:开启全新互动体验
为了让用户更直观地体验Sora 2的魅力,OpenAI推出了一款全新的Sora iOS社交应用,以“客串”功能为核心亮点:
-
创作与混搭:用户可以在应用中创作视频、混搭彼此的创作风格,甚至在可自定义的Sora动态中发现新内容。
-
客串功能:只需录制一段简短的音视频,Sora 2就能将用户或好友精准融入任何场景,带来前所未有的互动体验。
-
社交连接:OpenAI内部测试显示,这款应用帮助员工结识新朋友,展现了其作为新型沟通方式的潜力。
目前,Sora iOS应用已在美国和加拿大上线,计划快速扩展到其他国家和地区。用户可通过应用内注册获取访问权限,并可在sora.com上使用Sora 2。值得一提的是,ChatGPT Pro用户还能体验实验性的Sora 2 Pro模型,享受更高质量的生成效果。
免费体验与API支持
-
免费使用:Sora 2初期将免费开放,限制较为宽松,让用户可以自由探索其功能。
-
持续可用性:Sora 1 Turbo将继续可用,用户在sora.com上的创作内容也将保留。
-
API支持:OpenAI计划在API中发布Sora 2,为开发者提供更多创作可能性。
尽管Sora 2仍有一些不完美之处,但其表现已足以证明:通过进一步扩展视频数据的神经网络训练,我们离模拟现实的目标越来越近。
Sora 2不仅是视频生成技术的里程碑,更是一个通向通用世界模拟器和智能机器人代理的重要步骤。它将深刻改变内容创作、社交互动乃至整个社会的运作方式。正如OpenAI的使命所述,Sora 2将为世界带来无限的欢乐、创造力和连接。
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:人工智能研究Suo, 启示AI科技
动画详解transformer 在线视频教程