当前位置: 首页 > news >正文

Audio-Visual Speech Enhancement(视听语音增强)领域近三年研究进展与国内团队及手机厂商动态分析

一、视听语音增强领域近三年研究进展
  1. 多模态融合与模型轻量化

    • 多模态特征融合:中国科学技术大学团队提出通过引入超声舌头图像和唇部视频的联合建模,结合知识蒸馏技术,在训练阶段利用教师模型传递舌部运动知识,从而在推断时仅依赖唇部视频即可提升语音增强效果。此外,中科院声学所提出基于泰勒展开的模型架构,将幅度-相位解耦与空间-谱域解耦重新建模,提升算法可解释性并优化性能。
    • 轻量化模型设计:中国科大与腾讯天籁实验室合作提出轻量级音视频语音增强模型M3Net,通过多尺度特征聚合策略(如多尺度残差网络)在减少参数量的同时保持性能,适用于移动端部署。
  2. 相位谱优化与鲁棒性提升

    • 传统语音增强多关注幅度谱,而中科大团队提出的MP-SENet首次实现幅度和相位谱的并行去噪,通过抗卷绕损失函数优化相位预测,显著提升语音谐波恢复效果(PESQ得分达3.50)。
    • 鲁棒性方面,中科院声学所团队提出基于泰勒展开的端到端模型,通过替换不稳定数值操作为可学习模块,增强了算法在低信噪比环境下的稳定性。

相关文章:

  • js闭包,跨域
  • Effective C++读书笔记——item49(了解new-handle的行为)
  • 深度学习:从技术突破到未来展望
  • Linux系统 -- 环境安装,xshell和多用户,基本的Linux指令和Linux的用处
  • OpenCV中的边缘检测
  • 从低清到4K的魔法:FlashVideo突破高分辨率视频生成计算瓶颈(港大港中文字节)
  • Tomcat如何处理Http请求
  • 白话概念模型、逻辑模型与物理模型
  • ubuntu 安装 Redis
  • Java和JavaScript当中的json对象和json字符串分别讲解
  • Weather Regimes(WRs)方法介绍
  • 股指期货是什么?股指期货日内拐点有什么特征?
  • 备战蓝桥杯:贪心算法之货仓选址
  • 存储引擎---数据库
  • spring的核心配置
  • 什么是DNS?DNS解析的过程是怎样的?
  • Zookeeper分布式锁实现
  • rust学习笔记1-window安装开发环境
  • 上线了一个微软工具(免费),我独自开发,本篇有源码
  • python类方法名加前缀下划线
  • 南京106亿元成交19宗涉宅地块:建邺区地块楼面单价重回4.5万元
  • 中国海警位中国黄岩岛领海及周边区域执法巡查
  • 是否进行了及时有效处置?伤者情况如何?辽阳市相关负责人就饭店火灾事故答问
  • 80后共青团云南省委副书记许思思已任迪庆州委副书记
  • 民生银行一季度净利127.42亿降逾5%,营收增7.41%
  • 中国空间站首批在轨繁育果蝇即将返回地球,有望获得多项科学成果