当前位置: 首页 > news >正文

清华联合字节推出 HuMo,实现三模态协同生成人物视频

如今文本生成图像与视频已不再是天方夜谭。然而,当大多数模型仍在为生成画面的清晰度与稳定性而努力时,一个更为棘手的挑战浮出水面:如何精准、一致地生成以「人物」为核心的高质量视频?对此,清华大学与字节跳动联合推出了一个名为 HuMo 的统一 HCVG 框架。它专为「创造人」而生,旨在攻克这一核心难题。

HuMo-17B 真正实现了「三位一体」生成。它不再仅仅依赖文本指令,而是将文本、图像与音频三大模态融为一体,作为驱动视频生成的源泉。这意味着,你可以上传一张人物照片,搭配一段描述动作的文本和一首背景音乐,模型便能生成一个既保持人物外貌高度一致、动作符合描述,又与音乐节奏同步的连贯视频。

教程链接:https://go.openbayes.com/a7ZXE

使用云平台:OpenBayes

http://openbayes.com/console/signup?r=sony_0m6v

登录 OpenBayes.com,在「公共教程」页面,选择一键部署 「HuMo-17B:三模态协同创作」教程。

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。

文本-图像-音频生成视频(VideoGen from Text-Image-Audio,TIA)

进入 Demo 页面后,在「Generation Mode」中选择「TIA」,然后上传图像,音频并输入文本,点击「Generate Video」生成。

参数说明

  • Height:设置视频的高度。

  • Width:设置视频的宽度。

  • Frames:设置视频的帧数。

  • Text Guidance Scale:文本引导缩放比例,用于控制文本提示对视频生成的影响。

  • Image Guidance Scale:图像引导缩放比例,用于控制图像提示对视频生成的影响。

  • Audio Guidance Scale:音频引导缩放比例,用于控制音频提示对视频生成的影响。

  • Sampling Steps:采样步数,用于控制视频生成的质量和细节。

  • Random Seed:随机种子,用于控制视频生成的随机性。

文本-音频生成视频(VideoGen from Text-Audio,TA)

在「Generation Mode」中选择「TIA」,然后上传音频并输入文本,点击「Generate Video」生成。

http://www.dtcms.com/a/512229.html

相关文章:

  • 低价网站建设推广报价网站开发 验收周期
  • Yearning:一个免费开源的SQL审核平台
  • 东莞建设工程公司seo综合查询怎么回事
  • 怎么用易语言做网站做网站需要的图片大小
  • Handler中有Loop死循环,为什么没有阻塞主线程,原理是什么?
  • 【连接器专题】USB充电线通用技术要求团体标准笔记
  • 【小白笔记】虚拟货币挖矿算力匹配
  • 威胁系统(Threat System)概述
  • vue 大型网站开发让网站对搜索引擎友好
  • Blazor核心:Razor组件开发全解析
  • 服务好的合肥网站建设网站开发运作
  • 下载安装sqlite
  • DAX中的MMM月份格式按排序列进行排序
  • python不用框架做网站xps13适合网站开发吗
  • wordpress 多站点 主站点wordpress网站放icp
  • Angular如何让整个项目的所有页面能够整体缩小一定的比例?
  • 深入理解 Java 中的字符串、包装类与日期处理
  • 条件竞争漏洞全解析:从原理到突破
  • 面试_场景方案设计_联系
  • 判断网站首页阿里巴巴做网站营销有没有用
  • uniapp 请求携带数据 \\接口传值 \\ map遍历数据
  • 宝安沙井网站建设网站开发证书
  • 物联网卡为什么要支持双栈
  • 国外美容院网站建设监理工程师网站
  • 一键修复工具背后的机制:如何自动解决常见网络故障
  • MySQL 创建和授权用户
  • 遥控器KC模块技术解析
  • 申请域名建立网站做网站需要购买网站空间吗
  • 网页的创新型网站策划陵川网站建设
  • 个人网站备案代理wordpress文章发布函数