当前位置: 首页 > news >正文

行业案例 | OPPO借助Azure AI Speech国际服务实现音频文件智能转录

OPPO是全球领先的智能终端与移动互联网服务提供商,业务覆盖50余国,通过超40万销售网点和2500个服务中心与全球用户共享科技。作为软硬服一体化科技公司,OPPO以ColorOS为核心优化软件平台,为4.4亿月活用户打造智能操作系统,并通过升级软件商店、云服务等提供增值服务。

面临的挑战

随着移动互联网技术发展,手机已成为生活与移动办公不可或缺的工具,用户对手机AI能力期望提升。OPPO作为全球领先智能终端制造商和服务提供商,与微软合作推出两项受欢迎功能:小布连麦功能采用微软全新TTS技术,让用户与小布助手语音互动更具真实感和沉浸感;Phone Link功能实现手机与PC端无缝连接,为用户提供便捷、智能、灵活的跨设备体验。

在海外市场新产品上,双方合作助力OPPO AI手机的AI录音摘要和AI文章朗读两项创新功能。但实现这些功能,OPPO面临转录准确性、延迟、多语言支持及安全合规等挑战。为应对挑战,OPPO希望与在技术、资源上有实力,且有前瞻性眼光和魄力的AI合作伙伴展开稳定长期合作,将最新AI技术应用于手机,为用户提供创新服务。

解决方案

为了实现语音到文本的转录功能,OPPO采用了Azure AI Speech国际服务,该服务使开发人员能够快速准确地将多种语言和变体的音频转录为文本,它还支持定制模型,以增强特定领域术语的准确性。微软提供的REST API服务还可以使开发人员以40XRTF的速度创建准确的音频转录,这意味着一个10分钟的音频文件可以在15秒内完成转录,能充分满足OPPO对音频转录时限的要求。同时,Azure AI语音服务提供的语种识别功能(Language Identification(LID))可以迅速且精准地识别用户所用语言,这一功能确保了AI手机可以准确地转录和叙述各种语言的内容,使开发人员能够简化与多种语言音频交互的用户体验。

为了实现文本朗读功能,OPPO采用了Azure AI文本到语音的TTS服务,该服务采用了深度神经网络技术,使计算机合成的声音可以高度模拟人声。它提供了类似人声的自然韵律和清晰的发音,使朗读的语音几乎与人声相同,大大减轻了人们与人工智能系统交互时的听力疲劳。此外,Azure AI文本到语音功能提供多种声音和语言,这使得多语言支持变得很容易,只需通过预先构建的多语言神经语音系统,用户无需动手、用眼,就能轻松阅读多种语言的内容。

OPPO借助Azure AI语音服务和微软技术团队的支持,项目迅速启动,两周完成场景验证并实施。双方团队通过优化音频片段识别,显著提升了多语言声音识别的准确率。

成效与收益

OPPO利用Azure AI语音到文本与文本到语音服务,为AI手机两项创新功能带来出色用户体验。其AI录音摘要实现超快智能转录,RTF低于0.3,能实时将多种来源语音转录为文本并归纳摘要,极大提升移动办公效率,且单词校正率高,转录准确,减少误解、加强沟通。AI文章朗读让用户无需动手、用眼即可听各种语言文本,声音类似人声,还可选口音、调速度,满足多场景需求。

与微软合作保证了OPPO AI手机的合规性,Azure AI全球语音服务遵守严格安全协议和合规标准,OPPO也采取多项措施保护用户隐私,如音频文件匿名、数据传输加密、处理后删除、分国家(地区)处理等,建立用户信任。

作为微软中国南区核心合作伙伴及HKCSP 1T首批授权云服务商之一,领驭科技正积极整合Azure OpenAI的强大功能,包括先进的自然语言处理、分析和推理能力,到其产品和行业解决方案中。

Azure OpenAI服务通过其大规模生成式AI模型,支持企业客户根据特定需求和场景,开发创新应用,涵盖辅助写作、代码编写、多媒体内容生成以及数据分析等多个领域,为互联网、游戏、金融、零售、医药等行业以及自动驾驶和智能制造等前沿技术领域带来深远影响。

相关文章:

  • 英语写作中“表达、表述”expression statement 的用法
  • dart常用语法详解/数组list/map数据/class类详解
  • 联软SDP+安渡:收敛暴露面 从生产网自动取数 安全高效
  • 伽罗华域(galois field)的乘法计算(异或法)
  • TencentOSTiny
  • 应用宝的NotificationManagerService_post_com.tencent.android.qqdownloader持锁现象
  • Flutter、React Native、Unity 下的 iOS 性能与调试实践:兼容性挑战与应对策略(含 KeyMob 工具经验)
  • 【代码训练营Day01】数组part1
  • 解决Window10上IP映射重启失效的问题
  • 如何加载私钥为 SecKeyRef
  • docker部署redis mysql nacos seata rabbitmq minio onlyoffice nginx实战
  • R 语言科研绘图第 52 期 --- 网络图-分组
  • 英一真题阅读单词笔记 17年
  • TDengine 运维——用户和权限
  • 自回归建模模型(AR)
  • JS手写代码篇---Pomise.race
  • 界面控件DevExpress WinForms v24.2新版亮点:富文本编辑器功能全新升级
  • 程序的 “内存舞台”:深入解析虚拟地址空间与内存管理
  • 运维三剑客——grep
  • 简述MySQL优化锁方面你有什么建议?
  • 网站宣传软文/推广营销大的公司
  • 有没有专门做av字幕的网站/引擎优化seo怎么做
  • 网站谁做的比较好看的/seo做得比较好的公司
  • 环保网站可以做哪些内容/企业网站推广效果指标分析
  • 做商业网站赚钱吗/如何去推广一个app
  • 大连辰熙大厦做网站/江苏搜索引擎优化公司