当前位置: 首页 > news >正文

了解神经网络声音定制,实现多情绪、多语言演绎

微软推出的 Custom Neural Voice(CNV,神经网络版声音定制功能)是 Azure AI Speech 文本转语音服务的一大亮点。它能够创建高度逼真且自然的 AI 语音,其效果与真人配音演员几乎无法区分。如今,CNV 已经支持多情感表达和跨语言能力。

自发布以来,CNV 已助力 AT&T、Progressive、Vodafone、Swisscom、海尔等众多国内外知名企业开发出具有品牌特色的语音解决方案,广泛应用于语音助手、客服机器人、有声读物、语言学习、新闻播报等场景,为用户带来了愉悦的听感体验。

多风格 CNV:传递不同情绪的语音

多风格 CNV 功能极大地提升了终端用户的使用体验。用户无需额外添加新的训练数据,通过风格转换技术,就能创建多风格、多情绪的语音表达。风格转换技术可以将源说话者的语调和韵律(包括节奏、语调、韵律)应用到目标说话者身上,同时保留目标说话者的音色。随着多风格 CNV 的推出,微软发布了新的美式英语风格转换模型,并将其功能扩展到汉语和日语。

创建多风格语音的步骤:

  1. 准备大约300多句话的语音样本(无需多风格语音数据)作为默认风格。
  2. 将数据导入 Speech Studio 门户,选择 Neural - multi style(神经网络 - 多风格)训练方法。
  3. 从预设风格列表中选择目标说话风格,或使用自己的风格数据创建自定义风格。
  4. 训练时间取决于数据大小、语言和风格选择,可能需要40小时或更久。模型创建成功后,系统会生成测试音频供评估。
  5. 测试完成后,将声音模型部署到云端,通过音频内容生成工具或语音开发工具包 SDK 创建新音频,无需编程。通过语音合成标记语言(SSML)可切换不同说话风格。

多语种 CNV:掌握不同语言的语音

在当今全球化的世界中,开发人员需要构建覆盖全球用户的语音应用程序。CNV 的跨语言迁移学习技术让定制声音轻松获得多语言能力,无需额外添加特定语言的训练数据,支持数十种语言。

跨语言模型基于 Conformer 架构,结合卷积神经网络和转换器,高效建模数据序列中的局部和全局关联性。微软采用数据平衡训练策略解决不同语言数据不平衡问题,提高低资源语言的模型性能。结合说话者分类器训练,减少跨语言说话者之间的相似性损失,提升跨语言语音的自然程度。

支持的语言:中文(普通话)、荷兰语(荷兰)、英语(澳大利亚、英国、美国)、法语(加拿大、法国)、德语(德国)、印度尼西亚语、意大利语、日语、韩语、葡萄牙语(巴西)、俄语、西班牙语(墨西哥、西班牙)。只需提供其中一种语言的录音数据,定制声音即可获得所有支持语言的能力。

创建多语种语音的步骤:

  1. 在训练方法中选择 Neural – cross lingual(神经 - 跨语言)。
  2. 选择目标语言,CNV 平台将 AI 声音转换为目标语言。
  3. 训练过程约需20小时,具体取决于数据大小和所选语言。通过测试样本来评估声音效果。
  4. 模型部署后,使用目标语言文本输入即可合成语音内容,可通过音频内容生成工具或语音 SDK 进行合成。

微软的多风格和多语种神经语音声音定制(CNV)功能已在 Azure 国际版推出,对于希望构建与全球用户无缝交流的语音应用程序的开发人员来说,这是一项具有革命性意义的进步。

深圳领驭科技有限公司作为微软中国南区核心合作伙伴及 HK CSP 资质持有者,是首批获 Azure OpenAI 服务授权的服务商之一。公司积极将 Azure OpenAI 的自然语言处理、分析和推理等强大功能整合到产品与行业解决方案中。

Azure OpenAI 服务凭借大规模生成式 AI 模型,支持企业按需开发创新应用,如辅助写作、代码编写、多媒体内容生成和数据分析等,广泛影响互联网、游戏、金融、零售、医药等行业及自动驾驶、智能制造等前沿技术领域。

相关文章:

  • 推理加速新范式:火山引擎高性能分布式 KVCache (EIC)核心技术解读
  • 搜索二维矩阵 II 算法讲解
  • 矩阵置零算法讲解
  • 使用 AddressSanitizer 检测栈内存越界错误
  • 什么是数据集市(Data Mart)?
  • 如何查看电脑处理器配置 电脑处理器查看方法
  • Koa知识框架
  • 菊厂0510面试手撕题目解答
  • 一、HAL库的设计理念详解:从架构到实践
  • 简述DNS域名服务器
  • 前端面试每日三题 - Day 32
  • Browserless 快速上手
  • 全栈工程师实战手册:LuatOS日志系统开发指南!
  • C 语言_可变参数宏详解
  • temu自养号采购如何解决多账号防关联问题
  • (done) 补充:xv6 的一个用户程序 init 是怎么启动的 ?它如何启动第一个 bash ?
  • ARM64内核内存空间布局
  • The 2024 Sichuan Provincial Collegiate Programming Contest部分题解(L,H,E,B,I)
  • Ethereum Pectra 的升级
  • TWASandGWAS中GBS filtering and GWAS(1)
  • 盖茨说对中国技术封锁起到反作用
  • 历史地理学者成一农重回母校北京大学,担任历史系教授
  • 民企老板被错羁212天续:申请国赔千万余元,要求恢复名誉赔礼道歉
  • 我国7名优秀护理工作者荣获第50届南丁格尔奖
  • 今起公开发售,宁德时代将于5月20日在港股上市
  • 举牌代跳明码标价、留言不堪入目,未成年人擦边短视频成引流利器