当前位置：首页 > news >正文

了解神经网络声音定制，实现多情绪、多语言演绎

news 2025/7/3 15:54:27

微软推出的 Custom Neural Voice（CNV，神经网络版声音定制功能）是 Azure AI Speech 文本转语音服务的一大亮点。它能够创建高度逼真且自然的 AI 语音，其效果与真人配音演员几乎无法区分。如今，CNV 已经支持多情感表达和跨语言能力。

自发布以来，CNV 已助力 AT&T、Progressive、Vodafone、Swisscom、海尔等众多国内外知名企业开发出具有品牌特色的语音解决方案，广泛应用于语音助手、客服机器人、有声读物、语言学习、新闻播报等场景，为用户带来了愉悦的听感体验。

多风格 CNV：传递不同情绪的语音

多风格 CNV 功能极大地提升了终端用户的使用体验。用户无需额外添加新的训练数据，通过风格转换技术，就能创建多风格、多情绪的语音表达。风格转换技术可以将源说话者的语调和韵律（包括节奏、语调、韵律）应用到目标说话者身上，同时保留目标说话者的音色。随着多风格 CNV 的推出，微软发布了新的美式英语风格转换模型，并将其功能扩展到汉语和日语。

创建多风格语音的步骤：

准备大约300多句话的语音样本（无需多风格语音数据）作为默认风格。
将数据导入 Speech Studio 门户，选择 Neural - multi style（神经网络 - 多风格）训练方法。
从预设风格列表中选择目标说话风格，或使用自己的风格数据创建自定义风格。
训练时间取决于数据大小、语言和风格选择，可能需要40小时或更久。模型创建成功后，系统会生成测试音频供评估。
测试完成后，将声音模型部署到云端，通过音频内容生成工具或语音开发工具包 SDK 创建新音频，无需编程。通过语音合成标记语言（SSML）可切换不同说话风格。

多语种 CNV：掌握不同语言的语音

在当今全球化的世界中，开发人员需要构建覆盖全球用户的语音应用程序。CNV 的跨语言迁移学习技术让定制声音轻松获得多语言能力，无需额外添加特定语言的训练数据，支持数十种语言。

跨语言模型基于 Conformer 架构，结合卷积神经网络和转换器，高效建模数据序列中的局部和全局关联性。微软采用数据平衡训练策略解决不同语言数据不平衡问题，提高低资源语言的模型性能。结合说话者分类器训练，减少跨语言说话者之间的相似性损失，提升跨语言语音的自然程度。

支持的语言：中文（普通话）、荷兰语（荷兰）、英语（澳大利亚、英国、美国）、法语（加拿大、法国）、德语（德国）、印度尼西亚语、意大利语、日语、韩语、葡萄牙语（巴西）、俄语、西班牙语（墨西哥、西班牙）。只需提供其中一种语言的录音数据，定制声音即可获得所有支持语言的能力。

创建多语种语音的步骤：

在训练方法中选择 Neural – cross lingual（神经 - 跨语言）。
选择目标语言，CNV 平台将 AI 声音转换为目标语言。
训练过程约需20小时，具体取决于数据大小和所选语言。通过测试样本来评估声音效果。
模型部署后，使用目标语言文本输入即可合成语音内容，可通过音频内容生成工具或语音 SDK 进行合成。

微软的多风格和多语种神经语音声音定制（CNV）功能已在 Azure 国际版推出，对于希望构建与全球用户无缝交流的语音应用程序的开发人员来说，这是一项具有革命性意义的进步。

深圳领驭科技有限公司作为微软中国南区核心合作伙伴及 HK CSP 资质持有者，是首批获 Azure OpenAI 服务授权的服务商之一。公司积极将 Azure OpenAI 的自然语言处理、分析和推理等强大功能整合到产品与行业解决方案中。

Azure OpenAI 服务凭借大规模生成式 AI 模型，支持企业按需开发创新应用，如辅助写作、代码编写、多媒体内容生成和数据分析等，广泛影响互联网、游戏、金融、零售、医药等行业及自动驾驶、智能制造等前沿技术领域。

http://www.dtcms.com/a/185504.html

相关文章：

推理加速新范式：火山引擎高性能分布式 KVCache （EIC）核心技术解读

搜索二维矩阵 II 算法讲解

矩阵置零算法讲解

使用 AddressSanitizer 检测栈内存越界错误

什么是数据集市（Data Mart）？

如何查看电脑处理器配置电脑处理器查看方法

Koa知识框架

菊厂0510面试手撕题目解答

一、HAL库的设计理念详解：从架构到实践

简述DNS域名服务器

前端面试每日三题 - Day 32

Browserless 快速上手

全栈工程师实战手册：LuatOS日志系统开发指南！

C 语言_可变参数宏详解

temu自养号采购如何解决多账号防关联问题

(done) 补充：xv6 的一个用户程序 init 是怎么启动的？它如何启动第一个 bash ?

ARM64内核内存空间布局

The 2024 Sichuan Provincial Collegiate Programming Contest部分题解(L,H,E,B,I)

Ethereum Pectra 的升级

TWASandGWAS中GBS filtering and GWAS（1）

《Flutter社交应用暗黑奥秘：模式适配与色彩的艺术》

使用PhpStudy搭建Web测试服务器

每日一题洛谷P8662 [蓝桥杯 2018 省 AB] 全球变暖c++

Ubuntu20.04 搭建Kubernetes 1.28版本集群

WSL 安装 Debian 12 后，Linux 如何安装 redis ?

C#WPF里不能出现滚动条的原因

SysAid On-Prem XML注入漏洞复现（CVE-2025-2776）

栈和队列复习（C语言版）

Java笔记4

Go语言即时通讯系统开发日志day1