了解神经网络声音定制,实现多情绪、多语言演绎
微软推出的 Custom Neural Voice(CNV,神经网络版声音定制功能)是 Azure AI Speech 文本转语音服务的一大亮点。它能够创建高度逼真且自然的 AI 语音,其效果与真人配音演员几乎无法区分。如今,CNV 已经支持多情感表达和跨语言能力。
自发布以来,CNV 已助力 AT&T、Progressive、Vodafone、Swisscom、海尔等众多国内外知名企业开发出具有品牌特色的语音解决方案,广泛应用于语音助手、客服机器人、有声读物、语言学习、新闻播报等场景,为用户带来了愉悦的听感体验。
多风格 CNV:传递不同情绪的语音
多风格 CNV 功能极大地提升了终端用户的使用体验。用户无需额外添加新的训练数据,通过风格转换技术,就能创建多风格、多情绪的语音表达。风格转换技术可以将源说话者的语调和韵律(包括节奏、语调、韵律)应用到目标说话者身上,同时保留目标说话者的音色。随着多风格 CNV 的推出,微软发布了新的美式英语风格转换模型,并将其功能扩展到汉语和日语。
创建多风格语音的步骤:
- 准备大约300多句话的语音样本(无需多风格语音数据)作为默认风格。
- 将数据导入 Speech Studio 门户,选择 Neural - multi style(神经网络 - 多风格)训练方法。
- 从预设风格列表中选择目标说话风格,或使用自己的风格数据创建自定义风格。
- 训练时间取决于数据大小、语言和风格选择,可能需要40小时或更久。模型创建成功后,系统会生成测试音频供评估。
- 测试完成后,将声音模型部署到云端,通过音频内容生成工具或语音开发工具包 SDK 创建新音频,无需编程。通过语音合成标记语言(SSML)可切换不同说话风格。
多语种 CNV:掌握不同语言的语音
在当今全球化的世界中,开发人员需要构建覆盖全球用户的语音应用程序。CNV 的跨语言迁移学习技术让定制声音轻松获得多语言能力,无需额外添加特定语言的训练数据,支持数十种语言。
跨语言模型基于 Conformer 架构,结合卷积神经网络和转换器,高效建模数据序列中的局部和全局关联性。微软采用数据平衡训练策略解决不同语言数据不平衡问题,提高低资源语言的模型性能。结合说话者分类器训练,减少跨语言说话者之间的相似性损失,提升跨语言语音的自然程度。
支持的语言:中文(普通话)、荷兰语(荷兰)、英语(澳大利亚、英国、美国)、法语(加拿大、法国)、德语(德国)、印度尼西亚语、意大利语、日语、韩语、葡萄牙语(巴西)、俄语、西班牙语(墨西哥、西班牙)。只需提供其中一种语言的录音数据,定制声音即可获得所有支持语言的能力。
创建多语种语音的步骤:
- 在训练方法中选择 Neural – cross lingual(神经 - 跨语言)。
- 选择目标语言,CNV 平台将 AI 声音转换为目标语言。
- 训练过程约需20小时,具体取决于数据大小和所选语言。通过测试样本来评估声音效果。
- 模型部署后,使用目标语言文本输入即可合成语音内容,可通过音频内容生成工具或语音 SDK 进行合成。
微软的多风格和多语种神经语音声音定制(CNV)功能已在 Azure 国际版推出,对于希望构建与全球用户无缝交流的语音应用程序的开发人员来说,这是一项具有革命性意义的进步。
深圳领驭科技有限公司作为微软中国南区核心合作伙伴及 HK CSP 资质持有者,是首批获 Azure OpenAI 服务授权的服务商之一。公司积极将 Azure OpenAI 的自然语言处理、分析和推理等强大功能整合到产品与行业解决方案中。
Azure OpenAI 服务凭借大规模生成式 AI 模型,支持企业按需开发创新应用,如辅助写作、代码编写、多媒体内容生成和数据分析等,广泛影响互联网、游戏、金融、零售、医药等行业及自动驾驶、智能制造等前沿技术领域。