2025年9月第2周AI资讯
今天为大家分享几组重要的人工智能新闻:
一、可灵AI Avatar
本周,快手可灵发布了全新的数字人功能,可以根据用户提供的图像和音频,生成逼真的数字人播报和播客节目。
从可灵提供的演示画面可以看出,该工具可以基于单张图像输出带有完美唇形匹配、真实表情和自然手势的数字人视频,整体画面也非常流畅。
该工具可用于制作广告、推广、音乐、动画以及带货类视频,且很难看出合成痕迹。可灵AI Avatar支持处理多种比例、不同风格的图像,目前已经面向少数用户开启内部测试。
二、HuMo视频生成
这是字节在近期发布的多模态视频生成框架,专注于以人类角色为中心的视频生成。HuMo模型能从文本、图像和音频等多种模态输入生成高质量、精细且可控的人类视频,且具备主体一致和音频动作同步能力。
目前该模型已经在HuggingFace开源,支持输出最高720p分辨率的视频。例如,HuMo支持上传单张或多张素材图,并根据用户提供的脚本合成带有复杂肢体动作和口型匹配的视频。
HuMoMo还可基于参考图生成文本对齐、主题一致、音频同步的视频。更多演示动画,请大家访问项目官网查看。
三、MiniMax Music 1.5
本周末,MiniMax发布了1.5 Music生成模型,可以生成长达四分钟、具备强控制力、自然饱满、人声层次丰富、结构清晰的歌曲。
和同级别工具相比,Music 1.5模型可以生成具备通透真实感、自然饱满的音色,并提高了歌曲的情感表现力。点击上面链接即可体验该工具。
在简单模式下,用户可输入提示生成歌曲;在高级模式下,则可以输入前奏、主歌Verse、副歌,完成歌词编排。点击下方的设置按钮,还可手动选择歌曲的情绪、风格和场景。
四、即梦 4.0
本周,即梦图像4.0模型正式发布,不但支持多图参考和多模态生图,还可将低画质图像提升至4K分辨率。即梦4在模型竞技场的排名已经达到第五位,仅次于FLUX模型。
目前JiMeng 4已经上线即梦平台,登录即可免费使用。访问即梦官网就可以体验该模型。
五、混元图像2.1模型
本周,腾讯升级了混元图像模型到2.1版本,将会支持字体生成和2K分辨率输出,生成图像的整体美学表现也有所提升。
混元图像2.1对复杂语义理解能力有了显著提升,支持中英文渲染,适用于产品封面、插画、海报设计等多样化设计场景。腾讯同时表示会在近期发布多模态图像模型,大家可以关注。
六、Higgsfield Fashion Factory
本周,Higgsfield推出了时装工厂功能,可以基于角色和服装一键生成15张摄影棚级别的照片。该工具的发布可以为品牌节省大量雇佣模特和摄影师的成本,一键生成多角度拍摄的时装试穿效果图。
Higgsfield内置了多种摄影模板,用户可以使用自定义角色作为模特,快速完成图像合成。
七、IndexTTS 2.0
这是B站在近期开源的TTS模型,可以自由切换情绪并控制持续时长,生成更加自然和清晰的语音。
IndexTTS 2.0擅长模仿声音并切换情绪,保证音频和视频中人物口型的高度一致。点击IndexTTS 2 Demo – a Hugging Face Space by IndexTeam,可以在线体验。
八、磁力开创
本周快手发布了AIGC超级员工,可以根据用户的要求,在几分钟内交付完整的影片并执行脚本制作、视频拍摄和剪辑全流程。
据介绍,快手将多个不同功能的Agent代理整合到一个框架中,数字员工可以自行选择素材并进行剪辑,直到满意为止。
作为快手旗下的产品,磁力开创还接入了可灵视频模型,让创作过程变得更加高效。用户可以通过对话的方式完成视频生成和编辑,无需掌握复杂的剪辑技巧。
磁力开创平台目前还处于内部测试阶段,感兴趣的同学可申请加入早期等待列表。