行业案例 | OPPO借助Azure AI Speech国际服务实现音频文件智能转录
OPPO是全球领先的智能终端与移动互联网服务提供商,业务覆盖50余国,通过超40万销售网点和2500个服务中心与全球用户共享科技。作为软硬服一体化科技公司,OPPO以ColorOS为核心优化软件平台,为4.4亿月活用户打造智能操作系统,并通过升级软件商店、云服务等提供增值服务。
面临的挑战
随着移动互联网技术发展,手机已成为生活与移动办公不可或缺的工具,用户对手机AI能力期望提升。OPPO作为全球领先智能终端制造商和服务提供商,与微软合作推出两项受欢迎功能:小布连麦功能采用微软全新TTS技术,让用户与小布助手语音互动更具真实感和沉浸感;Phone Link功能实现手机与PC端无缝连接,为用户提供便捷、智能、灵活的跨设备体验。
在海外市场新产品上,双方合作助力OPPO AI手机的AI录音摘要和AI文章朗读两项创新功能。但实现这些功能,OPPO面临转录准确性、延迟、多语言支持及安全合规等挑战。为应对挑战,OPPO希望与在技术、资源上有实力,且有前瞻性眼光和魄力的AI合作伙伴展开稳定长期合作,将最新AI技术应用于手机,为用户提供创新服务。
解决方案
为了实现语音到文本的转录功能,OPPO采用了Azure AI Speech国际服务,该服务使开发人员能够快速准确地将多种语言和变体的音频转录为文本,它还支持定制模型,以增强特定领域术语的准确性。微软提供的REST API服务还可以使开发人员以40XRTF的速度创建准确的音频转录,这意味着一个10分钟的音频文件可以在15秒内完成转录,能充分满足OPPO对音频转录时限的要求。同时,Azure AI语音服务提供的语种识别功能(Language Identification(LID))可以迅速且精准地识别用户所用语言,这一功能确保了AI手机可以准确地转录和叙述各种语言的内容,使开发人员能够简化与多种语言音频交互的用户体验。
为了实现文本朗读功能,OPPO采用了Azure AI文本到语音的TTS服务,该服务采用了深度神经网络技术,使计算机合成的声音可以高度模拟人声。它提供了类似人声的自然韵律和清晰的发音,使朗读的语音几乎与人声相同,大大减轻了人们与人工智能系统交互时的听力疲劳。此外,Azure AI文本到语音功能提供多种声音和语言,这使得多语言支持变得很容易,只需通过预先构建的多语言神经语音系统,用户无需动手、用眼,就能轻松阅读多种语言的内容。
OPPO借助Azure AI语音服务和微软技术团队的支持,项目迅速启动,两周完成场景验证并实施。双方团队通过优化音频片段识别,显著提升了多语言声音识别的准确率。
成效与收益
OPPO利用Azure AI语音到文本与文本到语音服务,为AI手机两项创新功能带来出色用户体验。其AI录音摘要实现超快智能转录,RTF低于0.3,能实时将多种来源语音转录为文本并归纳摘要,极大提升移动办公效率,且单词校正率高,转录准确,减少误解、加强沟通。AI文章朗读让用户无需动手、用眼即可听各种语言文本,声音类似人声,还可选口音、调速度,满足多场景需求。
与微软合作保证了OPPO AI手机的合规性,Azure AI全球语音服务遵守严格安全协议和合规标准,OPPO也采取多项措施保护用户隐私,如音频文件匿名、数据传输加密、处理后删除、分国家(地区)处理等,建立用户信任。
作为微软中国南区核心合作伙伴及HKCSP 1T首批授权云服务商之一,领驭科技正积极整合Azure OpenAI的强大功能,包括先进的自然语言处理、分析和推理能力,到其产品和行业解决方案中。
Azure OpenAI服务通过其大规模生成式AI模型,支持企业客户根据特定需求和场景,开发创新应用,涵盖辅助写作、代码编写、多媒体内容生成以及数据分析等多个领域,为互联网、游戏、金融、零售、医药等行业以及自动驾驶和智能制造等前沿技术领域带来深远影响。