腾讯混元开源语音数字人模型 HunyuanVideo-Avatar:开启数字人 “能说会唱” 新时代
2025 年 5 月 28 日,腾讯混元团队联合腾讯音乐天琴实验室正式发布并开源语音数字人模型 HunyuanVideo-Avatar,引发行业内外高度关注。这一突破性技术,仅需一张人物图像和一段音频,就能让静态图片中的人物 “活” 起来,自然地说话、唱歌,带来包含自然表情、精准唇形同步及全身动作的动态视频内容。
技术融合打造强大模型
HunyuanVideo-Avatar 基于腾讯混元视频大模型(HunyuanVideo)与腾讯音乐天琴实验室 MuseV 技术深度融合开发。腾讯混元视频大模型具备强大的视频理解与生成能力,而 MuseV 技术在音频处理、理解及与视觉元素的融合方面独具优势。两者结合,赋予了 HunyuanVideo-Avatar 模型强大的多模态理解能力,使其能够自动识别输入图像中的人物环境信息以及音频所承载的情感内容,进而生成高度匹配的视频片段。
突破传统,丰富表现形式
传统数字人技术多局限于头部驱动,而 HunyuanVideo-Avatar 全面支持头肩、半身与全身三种景别模式。无论是展现人物细腻的面部表情,还是呈现全身的肢体动作,该模型都能轻松实现。在风格方面,它覆盖了赛博朋克、2D 动漫、中国水墨画等多种艺术风格,还能实现机器人、动物等多物种角色驱动,甚至具备双人或多人互动场景的处理能力,极大地拓展了数字人的应用范围和创意空间。
创新模块实现精准驱动
角色图像注入模块
在生成视频时,保持人物形象的高度一致性和动作流畅自然是一大挑战。HunyuanVideo-Avatar 的角色图像注入模块通过创新方式将人物图像特征注入模型,有效避免了传统方法中可能出现的动作 “僵硬” 或不连贯问题,显著提升视频整体质量,让数字人动作更加自然逼真。
音频情感模块(AEM)
音频情感模块能够精准识别音频中包含的情感信息,并将其生动地体现在数字人物的面部表情上。欢快的音频能让数字人展现出灿烂笑容,悲伤的音频则使其呈现出哀伤神情,实现了音频情感与人物表情的完美匹配。
面部感知音频适配器(FAA)
针对多人物对话场景,面部感知音频适配器能够 “识别” 并 “锁定” 音频所对应的具体人物面部区域。利用 “面部掩码” 技术,模型可以独立驱动不同人物的唇形和表情,确保多人对话时,每个角色都能根据自己的音频进行精准、自然的表达,避免了不同人物之间动作互相干扰的问题,极大提升了多人场景下数字人的表现效果。
广泛应用,赋能多元领域
娱乐创意领域
在影视制作中,导演可以利用 HunyuanVideo-Avatar 快速生成虚拟角色的表演片段,为特效场景、奇幻角色的创作提供更多可能;动画制作方面,创作者无需复杂的逐帧绘制,通过简单的图像和音频输入,就能让动画角色生动地歌唱、对话,大大提高制作效率;短视频创作领域更是如虎添翼,创作者能轻松制作出富有创意的人物动态短视频,吸引更多用户关注。例如,在 QQ 音乐平台,用户收听 “AI 力宏” 歌曲时,AI 生成的虚拟形象会在播放界面实时同步演唱动作,为用户带来全新的视听体验。
电商与广告行业
电商平台上,商家可以借助该模型快速制作产品介绍视频。让虚拟人物详细介绍产品特点、使用方法,相比传统静态图文,更能吸引消费者的注意力,提升购买转化率。在广告领域,多个角色的互动场景也能通过该模型轻松实现,带来更具吸引力的宣传效果,制作出更具创意和感染力的广告内容。
在线教育与远程会议
在线教育中,虚拟教师形象可以根据教学音频自然地讲解知识,丰富教学形式,增强学生的学习兴趣;远程会议场景下,参会人员可以使用自定义的虚拟形象进行发言,增加会议的趣味性和个性化,即使身处不同地点,也能通过生动的虚拟形象实现更有代入感的交流。
开源推动技术普及与发展
腾讯将 HunyuanVideo-Avatar 模型开源,这一举措意义重大。一方面,开源能够让更多的开发者参与到技术研发中来,集众人智慧对模型进行优化和改进,加速技术迭代升级。另一方面,降低了行业使用数字人技术的门槛,中小团队和个人创作者也能基于该模型开发出富有创意的应用,推动数字人技术在更广泛领域的普及应用,促进整个数字人产业生态的繁荣发展。目前,HunyuanVideo-Avatar 的单主体能力已经在腾讯混元官网上线,用户可在 “模型广场 - 混元生视频 - 数字人 - 语音驱动 - HunyuanVideo-Avatar” 中体验,当前支持上传不超过 14 秒的音频进行视频生成,后续还将逐步上线和开源其他能力。
HunyuanVideo-Avatar 的推出,为数字人技术发展注入了新的活力,开启了数字人 “能说会唱” 的新时代。随着技术的不断完善和应用场景的持续拓展,它有望在更多领域发挥重要作用,给人们的生活和工作带来更多惊喜与变革。我们有理由期待,在腾讯等企业的推动下,数字人技术将迈向更高的发展阶段,创造出更多令人惊叹的应用成果。