国庆爆火的Sora2使用初探和实例生成
目录
- 引言
- 一、什么是Sora 2
- 二、Sora 2原理初探
- 三、Sora 2使用介绍
- 四、总结
引言
国庆期间爆火的无疑就是OpenAI的Sora 2发布了,邀请码一码难求。关注视频生成模型能力的小马自然也是不会放过,之前写过《小白AIGC短视频生成的第一课》、《小白AIGC短视频生成的第一课之混元AI视频》,探讨了混元、万相等能力,今天我们继续来跟进看看Sora 2。本文主要探讨资讯、原理和使用介绍、案例分享。
一、什么是Sora 2
官方资讯:https://openai.com/zh-Hans-CN/index/sora-2/
Sora 2是OpenAI在背景时间2025年10月1日发布的新一代图文生成视频模型,其核心功能是从文本或图像生成短视频,并同步生成匹配的音频。它不仅是一个AI视频工具,更被设计为一个集创作、社交于一体的平台,相比初代 Sora,Sora 2 在物理真实感、音视频同步以及可控性上都有了质的飞跃,它不仅是一次技术升级,还伴随着一款名为 Sora App 的社交应用一同亮相。
关键创新:
- 物理真实感:能模拟现实世界的物理规则;
- Cameo功能:可将自己或他人的数字分身置入视频;
- 多镜头控制:能生成并保持多个镜头间的场景一致性;
- Remix功能:允许用户对视频进行对象或场景级别的二次创作;
相比Sora,Sora 2 在物理逻辑、画面一致性和真实感方面都有显著提升,首次实现了音画同步,能够直接从文本提示生成背景音景、语音和音效。物理真实感提升,人物和动作更加逼真流畅,配音更加真实AI味道减少。
Sora 2的两个版本:Sora 2系列提供两个变体。
Sora 2:注重生成速度和灵活性,适合快速创意探索和社交媒体内容。
Sora 2 Pro:为ChatGPT Pro用户设计,支持更高分辨率,渲染时间更长,画质更细腻,适合专业级输出。
目前可以通过独立的"Sora"手机App(目前仅限美国、加拿大地区的iOS用户)和网站sora.chatgpt.com访问。今天为止还是邀请制。不过万能的网友还是有破解之法,稍后会一起探讨。
二、Sora 2原理初探
据资料介绍,Sora 2的技术原理升级主要在于:
- 物理引擎升级
Sora 2通过将传统2D注意力机制升级为三维旋转位置编码(3D ROT),使模型能够同时理解画面内所有帧的时空关系,从而更准确地模拟牛顿定律、流体动力学和光学原理。这种升级解决了初代Sora在物理规律理解上的不足,例如人物运动轨迹的连贯性和物体交互的真实性。
- 音画同步生成
Sora 2首次实现了音视频的同步生成,能够根据画面内容自动匹配环境音效、人物对话和背景声,唇形偏差控制在三帧以内,显著提升了视听一体化的真实感。
- 时空补丁技术
Sora 2采用“时空补丁”(space-time patches)技术,将视频序列中的四维信息单元(空间维度的视觉场景和时间维度的动态变化)进行重组,生成更连贯和逼真的视频内容。这一技术结合了扩散模型和Transformer架构,通过预测下一个补丁来构建视频。
- 多模态学习与扩散模型
Sora 2基于扩散模型(Diffusion Model)和Transformer架构,从噪声状态逐步生成清晰视频帧,同时通过多模态学习处理文本、图像和视频数据,实现更灵活的指令理解和内容生成。其训练数据包括授权视频和公共互联网数据,增强了模型的泛化能力。
- 社交与再创作功能
Sora 2的**“客串”(Cameo)功能允许用户通过简短素材生成数字演员**,并将其置入虚拟场景;**“二次创作”(Remix)**则支持用户基于现有视频生成新内容,降低了参与热门创作的门槛。
这些技术突破使Sora 2从“内容创作辅助”升级为“世界理解系统”,推动了视频生成从实验室到大众化的转型。
三、Sora 2使用介绍
1、我们来到官方,登录账号(没有的话需要先注册)。
2、准备邀请码。这是重点,邀请码获取渠道一般是好友分享或者网络上有自发的专门的邀请码分享接龙文档,又或者直接从某宝几米采购一个,如果是非常规交易平台千万要注意留心真实性哈。
一般一个码可以使用4次左右,一个码成功邀请一位之后被邀请的朋友可以再裂变出新的邀请码,每个Sora2 新用户都能再邀请 6 个新用户。这也是本次官方巧妙利用社交裂变的经典案例。
3、拿到邀请码后我们即可激活进入。选择新的Sora进入。
在界面填入我们的邀请码。
点完邀请码,很快会弹出欢迎弹窗,直接点 “Get started” 就能进 Sora2 主界面。
4、我们来查看下功能区。
箭头是提示词输入框,关于视频提示词的规则可以参考文章引言中小马之前研究其他模型研究的结论公式,总的原则是描述越详细效果越可控越接近期望值。
关于Sora 2的提示词技巧,网络上也已经有大量的分享,这里不展开。
如果输入提示词时@ Cameo的人物形象可以在视频中使用该人物。
提示词输入框左边的“+”号是上传图片使用的,目前只能单张。开启图片上传需勾选同意协议(要全部勾选才行)。
5、实例生成。
小马结合deepseek来生成提示词,并尝试生成了一个视频。
输入框输入提示词:
**【核心风格】** 电影感纪录片、航拍大片、节日庆典、唯美光影**【画面比例】** 16:9 (电影宽荧幕)**【镜头序列描述】****1. 开场:日出海天,国旗飘扬**
* **镜头**:超广角航拍镜头。清晨,金色的朝阳从东海海平面喷薄而出,染红了整片天空。镜头缓缓推进至湄洲岛轮廓,岛上的妈祖祖庙建筑群在晨光中熠熠生辉。一面对比鲜明的巨大五星红旗在祖庙前的广场上迎风招展,与金色的阳光和蓝色的海天形成壮丽的视觉冲击。**2. 转场:浪花与石雕的呼应**
* **镜头**:慢动作特写转大景。洁白的浪花拍打着“妈祖故事”群雕的礁石,水花飞溅,充满力量与美感。镜头随着一朵溅起的水珠升起,拉远,展现出整个妈祖石像的侧面——她面容慈祥,遥望大海,背景是辽阔无垠的蔚蓝海洋。**3. 主景:神圣的妈祖石像**
* **镜头**:无人机环绕上升镜头。从妈祖石像的基座开始,镜头平稳地环绕并向上拉升,展现石像高达14.05米的宏伟庄严。最终镜头升至石像面部高度,以妈祖的视角俯瞰下方朝圣的人群和远处的海天一色,场面神圣而大气。**4. 人文:祈福的人群与香火**
* **镜头**:中景推进至特写。祖庙香炉前,青烟袅袅,升向天空。众多游客与信众手持香火,神情虔诚地祈福。镜头聚焦在一家三代的脸上,老人闭目默祷,孩子好奇张望,脸上贴着国庆小红旗,洋溢着幸福与安宁。**5. 场景:黄金沙滩的欢愉**
* **镜头**:低角度广角镜头。湄屿潮音的海滩上,沙子金黄细腻。许多游客在嬉戏,孩子们在奔跑放风筝(风筝可以是中国龙或国旗图案)。镜头从低角度捕捉人们跳跃的剪影,背景是波光粼粼的大海与蓝天,充满动感与活力。**6. 高潮:海滨路的庆典**
* **镜头**:无人机跟踪镜头。环岛海滨路上,挂满了喜庆的红灯笼和国旗。一支穿着传统服饰的莆仙戏队伍正在巡游,锣鼓喧天。镜头与巡游队伍平行飞行,捕捉他们脸上洋溢的笑容和周围观众热烈的掌声,节日的欢腾气氛达到顶点。**7. 结尾:月夜下的妈祖之光**
* **镜头**:延时摄影与航拍结合。夜幕降临,妈祖祖庙和石像被温暖的灯光点亮,宛如一座海上仙山,璀璨夺目。夜空中繁星点点,可能还有为国庆准备的绚烂烟花绽放。最后镜头缓缓拉远,整个发光的湄洲岛像一颗明珠镶嵌在墨色的海面上,视频在宁静而恢弘的画面中结束。---**【氛围与细节关键词】**
* **视觉**:电影级光影、金色时刻(日出/日落)、高饱和度、流畅的运镜、丰富的层次感(海、天、山、建筑)。
* **氛围**:神圣庄严、欢乐祥和、家庭温馨、文化厚重、自然壮美。
* **元素**:五星红旗、红灯笼、莆仙戏、香火、海浪、礁石、风筝、烟花、笑脸。**【配乐建议】**
* 开场用宏大的管弦乐配合海浪声。
* 中段加入悠扬的民乐(如古筝、笛子)体现文化感。
* 高潮部分音乐变得欢快激昂,融入锣鼓点。
* 结尾回归空灵、大气的音乐,渐弱至海浪声。
大概等待了3-4分钟,视频就生成了。
国庆湄洲岛旅游Sora 2
效果如何就交由各位看官评判了。
需要提醒的是,目前官方对生产内容的版权限制和审核还是比较严格的,对于一些真人形象的上传以及一些已有版权的内容字眼提交请求时会直接拦截不生成内容(将看下如下图所示)。关于如何绕开万能的网友肯定也有招,大家自行探索不展开。
四、总结
确实很强大,也代表着AIGC视频生成的新的一个对标天花板(但小马也相信很快国内也将会对标赶超),可以结合的变现场景也很多。不过相对于之前小马研究的某度秒笔来说,似乎后者更适合生产流程,效果上除了视频质量略有差距其他貌似没什么惊艳。
以下是之前通过deepseek + 某度妙笔 无中生有 10分钟生成的一段视频,大家也可以体验对比看看效果。
2025血月奇观
- 彩蛋的位置~
来点好玩的: