当前位置：首页 > news >正文

阶跃星辰开源300亿参数视频模型Step-Video-TI2V：运动可控+102帧长视频生成

news 2025/7/6 12:10:00

阶跃星辰（StepFun）正式开源其新一代图生视频模型 Step-Video-TI2V ，该模型基于300亿参数的Step-Video-T2V训练，支持文本与图像联合驱动生成长达102帧的高质量视频，在运动控制与场景适配性上实现突破。

核心亮点
1、超长视频生成与运动控制
支持生成 102帧视频（约4秒@24fps），覆盖更长时序内容创作需求。
首创运动幅度可控与镜头运动可控双机制，用户可通过参数调节动态效果，平衡画面流畅性与戏剧张力。

2、多模态输入与风格适配
同时接受文本和图像输入，精准融合语义描述与视觉风格，尤其在动漫风格视频生成中表现优异，适用于动画制作与创意短片。
基于深度压缩变分自编码器（Video-VAE），实现16×16空间压缩与8×时间压缩，显著提升训练与推理效率。

3、开源生态与硬件兼容
模型已开源（GitHub地址：stepfun-ai/Step-Video-TI2V ），支持开发者快速部署。
适配华为昇腾计算平台，推动国产化AI硬件生态发展。

技术突破与行业价值
1、参数规模领先：作为当前开源社区最大的TI2V（Text/Image-to-Video）模型之一，300亿参数量支撑复杂场景建模能力。
2、应用前景广阔：可服务于影视特效、广告创意、短视频内容生产等领域，降低高质量视频制作门槛。
3、研究意义显著：开源后将加速图生视频技术迭代，为学术界提供高性价比的多模态研究基座。

与其他领先开源模型的比较
将 Step-Video-TI2V 与最近发布的领先开源模型进行比较，下表中的详细结果突出了该模型优于这些模型的性能。展示了 Step-Video-TI2V 的两个结果，运动分别设置为 5 和 10。正如预期的那样，这种机制有效地平衡了生成视频的运动动态和稳定性（或一致性）。此外，在 VBench-I2V的排行榜，Step-Video-TI2V 获得了最高排名。

Step-Video-TI2V 的应用领域与场景
基于其运动可控性、长视频生成能力（102帧/5秒）及多模态输入支持，Step-Video-TI2V 可广泛应用于以下领域，结合技术特性与知识库信息分析如下：

1. 影视与广告制作
特效预演与生成：支持生成具有动态效果的视频片段（如爆炸、光影变化），可作为电影或广告特效的低成本预演工具。
短视频广告创作：通过文本与图像联合驱动，快速生成符合品牌调性的创意短片，提升广告制作效率。

2. 动漫与短视频创作
动画制作：在动漫风格任务中表现突出，可生成高质量角色动作与场景过渡，缩短传统动画制作周期。
竖屏内容生产：支持多尺寸生成（横屏/竖屏），适配抖音、Instagram等平台的短视频需求。

3. 教育与体育训练
动作教学视频：生成复杂动态场景（如舞蹈、武术动作分解），辅助在线教育或健身课程开发。
科学可视化：模拟物理实验或生物过程（如流体运动、分子结构动态展示），提升教学直观性。

4. 游戏与虚拟内容开发
游戏过场动画：通过可控镜头运动生成游戏内过场动画，降低开发成本。
虚拟主播/数字人：结合图像输入生成虚拟角色的动态视频，用于直播或互动内容。

5. 工业与医疗模拟
工业设计验证：生成机械运动或产品使用场景的模拟视频，辅助设计验证。
医疗培训：模拟手术操作或解剖过程，提供高精度动态教学素材。

6. 社交媒体与UGC内容
个性化内容生成：用户上传图片并输入文本描述，快速生成定制化视频（如旅行Vlog、产品评测）。
特效滤镜增强：集成至社交平台工具链，提供动态滤镜或AR效果生成。

7. 多模态艺术与创意实验
艺术风格迁移：将静态艺术作品（如油画、插画）转化为动态视频，探索跨媒介艺术表达。
AI生成电影短片：通过长视频生成能力创作实验性短片，推动AI在艺术领域的边界。

8. 科研与国产化生态
AI模型研究：开源特性为学术界提供高参数量多模态研究基座，推动视频生成技术迭代。
国产硬件适配：支持华为昇腾平台，助力国产AI芯片在视频生成领域的落地应用。

Step-Video-TI2V凭借大参数量、运动控制创新与开源策略，为视频生成领域树立新标杆，有望推动AIGC从“短片段创作”迈向“长视频工业化生产”时代。

模型网址：https://github.com/stepfun-ai/Step-Video-TI2V

查看全文

http://www.dtcms.com/a/91375.html

Hyperlane 似乎是一个轻量级、高性能的 Rust HTTP 服务器库

Redis原理：Monitor 实现

雕马快租：直播设备租赁新趋势，低成本重构传统营销模式的破局之道

缓存相关问题

单例模式在Python中的实现和应用

【SpringBoot篇】SpringBoot的自动装配原理

安装SQL Server 2022常见问题和环境配置

http://noi.openjudge.cn——4.7算法之搜索_1814:恼人的青蛙

unable to load vboxguest kernel module

Redis 核心源码解析：从设计哲学到企业级应用实践

Triformer：长序列多变量时间序列预测

记录一次部署k3s后，服务404 page not found，nginx显示正常

PL/SQL语言的字符串处理

VUE项目初始化

深入理解Golang标准库`testing/fstest`包的用法和技巧进行文件系统测试

【Git】用Git命令克隆一个远程仓库、修改仓库中的文件，并将更改推送到远程仓库

Kotlin 协程官方文档知识汇总（一）

基本数据操作关于torch

【读点论文】面向识别的长弯曲文本预处理算法，有点局限

Java 字符流全解析：核心类实战指南

SpringBoot 启动优化问题

什么是Java序列化？什么情况下需要使用序列化

5. 实现一个中间件

S7-1200对V90 PN进行位置控制的三种方法

新能源行业：卓越 UE/UI 设计，引领业务腾飞的新引擎

23种设计模式-命令(Command)设计模式

数据文件误删除，OceanBase中如何重建受影响的节点

Axure设计之中继器表格——拖动行排序教程（中继器）

重庆软航NTKO WebOffice控件在谷歌Chrome 133版提示扩展已停用解决方案！

26考研——图_图的应用（6）

相关文章：