当前位置：首页 > news >正文

清华联合字节推出 HuMo，实现三模态协同生成人物视频

news 2025/10/22 10:26:32

如今文本生成图像与视频已不再是天方夜谭。然而，当大多数模型仍在为生成画面的清晰度与稳定性而努力时，一个更为棘手的挑战浮出水面：如何精准、一致地生成以「人物」为核心的高质量视频？对此，清华大学与字节跳动联合推出了一个名为 HuMo 的统一 HCVG 框架。它专为「创造人」而生，旨在攻克这一核心难题。

HuMo-17B 真正实现了「三位一体」生成。它不再仅仅依赖文本指令，而是将文本、图像与音频三大模态融为一体，作为驱动视频生成的源泉。这意味着，你可以上传一张人物照片，搭配一段描述动作的文本和一首背景音乐，模型便能生成一个既保持人物外貌高度一致、动作符合描述，又与音乐节奏同步的连贯视频。

教程链接：https://go.openbayes.com/a7ZXE

使用云平台：OpenBayes

http://openbayes.com/console/signup?r=sony_0m6v

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本，不需要再进行手动选择。点击「继续执行」，等待分配资源。

待系统分配好资源，当状态变为「运行中」后，点击「API 地址」边上的跳转箭头，即可跳转至 Demo 页面。

文本-图像-音频生成视频（VideoGen from Text-Image-Audio,TIA）

进入 Demo 页面后，在「Generation Mode」中选择「TIA」，然后上传图像，音频并输入文本，点击「Generate Video」生成。

参数说明

Height：设置视频的高度。
Width：设置视频的宽度。
Frames：设置视频的帧数。
Text Guidance Scale：文本引导缩放比例，用于控制文本提示对视频生成的影响。
Image Guidance Scale：图像引导缩放比例，用于控制图像提示对视频生成的影响。
Audio Guidance Scale：音频引导缩放比例，用于控制音频提示对视频生成的影响。
Sampling Steps：采样步数，用于控制视频生成的质量和细节。
Random Seed：随机种子，用于控制视频生成的随机性。

文本-音频生成视频（VideoGen from Text-Audio,TA）

在「Generation Mode」中选择「TIA」，然后上传音频并输入文本，点击「Generate Video」生成。

查看全文

http://www.dtcms.com/a/512229.html

低价网站建设推广报价网站开发验收周期

Yearning：一个免费开源的SQL审核平台

东莞建设工程公司seo综合查询怎么回事

怎么用易语言做网站做网站需要的图片大小

Handler中有Loop死循环，为什么没有阻塞主线程，原理是什么？

【连接器专题】USB充电线通用技术要求团体标准笔记

【小白笔记】虚拟货币挖矿算力匹配

威胁系统（Threat System）概述

vue 大型网站开发让网站对搜索引擎友好

Blazor核心：Razor组件开发全解析

服务好的合肥网站建设网站开发运作

下载安装sqlite

DAX中的MMM月份格式按排序列进行排序

python不用框架做网站xps13适合网站开发吗

wordpress 多站点主站点wordpress网站放icp

Angular如何让整个项目的所有页面能够整体缩小一定的比例？

深入理解 Java 中的字符串、包装类与日期处理

条件竞争漏洞全解析：从原理到突破

面试_场景方案设计_联系

判断网站首页阿里巴巴做网站营销有没有用

uniapp 请求携带数据 \\接口传值 \\ map遍历数据

宝安沙井网站建设网站开发证书

物联网卡为什么要支持双栈

国外美容院网站建设监理工程师网站

一键修复工具背后的机制：如何自动解决常见网络故障

MySQL 创建和授权用户

遥控器KC模块技术解析

申请域名建立网站做网站需要购买网站空间吗

网页的创新型网站策划陵川网站建设

文本-图像-音频生成视频（VideoGen from Text-Image-Audio,TIA）

文本-音频生成视频（VideoGen from Text-Audio,TA）

相关文章：