当前位置: 首页 > news >正文

复旦大学、百度联合开源数字人项目hallo2,支持高分辨率(可达4K)、长视频生成(最多1小时)

项目背景与概述

在这里插入图片描述

hallo2是一个由复旦大学、百度公司和南京大学的研究团队共同开发的开源项目,专注于音频驱动的肖像图像动画生成技术。该项目于2024年10月首次在ArXiv上发布论文,并于2025年1月被国际机器学习会议ICLR 2025接收,标志着其在学术界的重要地位。hallo2旨在突破现有方法在时长和分辨率上的限制,为娱乐、教育和虚拟现实等领域提供创新解决方案。

目的与应用场景

在这里插入图片描述
hallo2的核心目标是实现**长时长(最高1小时)、高分辨率(4K)的肖像动画生成,这些动画能够与输入音频同步,确保唇部动作和面部表情与声音完美匹配。这种技术突破了现有方法在时长和分辨率上的限制,为多个领域提供了广泛的应用前景。

  • 娱乐:可用于创建逼真的数字头像,增强虚拟角色互动。

  • 教育:生成交互式讲师动画,提升学习体验,例如斯坦福大学的1小时LLM课程。

  • 虚拟现实:实现更具沉浸感的数字互动,例如历史人物演讲视频,如丘吉尔的“铁幕演讲”(4分钟)或泰勒·斯威夫特的演讲(23分钟)。

此外,hallo2支持通过文本提示(如情绪或风格描述)增强生成内容的多样性和可控性,允许用户定制动画的表达方式,例如指定情感或艺术风格。

技术细节与实现

在这里插入图片描述

音频处理

  • 输入音频通过 wav2vec2-base-960h 模型提取特征,存储在 pretrained_models/wav2vec/wav2vec2-base-960h/ 目录下。

  • 使用 MDX-Net 的 KimVocal_2 模型(pretrained_models/audio_separator/)分离人声和背景音乐,确保音频输入的清晰度。

面部分析

  • 使用 InsightFace 和 MediaPipe 的模型进行面部检测和关键点提取。这些模型存储在 pretrained_models/face_analysis/models/,包括 face_landmarker_v2_with_blendshapes.task 和 1k3d68.onnx 等。

  • 面部分析模块负责检测面部位置、提取 2D/3D 关键点,为后续动画生成提供基础。

运动生成

  • 借助 AnimateDiff 的运动模块(pretrained_models/motion_module/mm_sd_v15_v2.ckpt),生成面部和头部的动态效果。

  • 该模块支持长时长动画的连续性,确保 1 小时视频的流畅性。

图像合成

在这里插入图片描述

  • 使用 Stable Diffusion V1.5 和 sd-vae-ft-mse 模型生成高质量图像,存储在 pretrained_models/stable-diffusion-v1-5/ 和 pretrained_models/sd-vae-ft-mse/。

  • 去噪 UNet(pretrained_models/hallo2/net_g.pth)和面部定位器(pretrained_models/hallo2/net.pth)进一步优化动画生成,支持文本提示(如情绪或风格描述)增强内容的可控性。
    在这里插入图片描述

超分辨率

  • 通过 CodeFormer(pretrained_models/CodeFormer/codeformer.pth)和 RealESRGAN(pretrained_models/realesrgan/RealESRGAN_x2plus.pth)提升视频分辨率,支持 4K 输出。

性能对比

详情见技术报告,此处仅仅选择性展示一些内容:
在这里插入图片描述

在这里插入图片描述

看看效果

相关文献

技术报告:https://arxiv.org/pdf/2410.07718
官方地址:https://fudan-generative-vision.github.io/hallo2/#/
github地址:https://github.com/fudan-generative-vision/hallo2
相关模型下载:https://huggingface.co/fudan-generative-ai/hallo2

相关文章:

  • PyTorch学习-小土堆教程
  • 2025年泰迪杯数据挑战赛B题问题分析
  • 文章记单词 | 第35篇(六级)
  • 等离子体浸没离子注入(PIII)
  • XR技术赋能艺术展演|我的宇宙推动东方美学体验化
  • 50常用控件_QPushButton
  • Linux的目录结构(介绍,具体目录结构)
  • 机器狗运行是否需要服务器分析
  • 【Windows Cmake工程配置Boost库】
  • PyTorch - Tensor 学习笔记
  • python爬虫JavaScript基础
  • Python 第三节 流程控制
  • UDP猜数字游戏与TCP文件传输案例解析
  • AI日报 - 2025年04月17日
  • Python Cookbook-6.5 继承的替代方案——自动托管
  • Vue 3 路由配置使用与讲解
  • 脚本-QQ批量发送消息(图片和文字)
  • 23黑马产品经理Day01
  • 用户态与内核态多个维度的区别
  • 爬虫(基本知识介绍,urllib库的说明)
  • 网站建设+深圳+凡科/简述什么是网络营销
  • 自己做网站怎么加定位/直通车怎么开效果最佳
  • 网站建设公司的出路/郑州网站优化公司
  • 新手学做网站 iso ed2k/优化网站推广教程整站
  • 即墨市网站建设/深圳搜索seo优化排名
  • php做网站和小程序很好/关键词排名批量查询