当前位置: 首页 > news >正文

Audio-Visual Speech Enhancement(视听语音增强)领域近三年研究进展与国内团队及手机厂商动态分析

一、视听语音增强领域近三年研究进展
  1. 多模态融合与模型轻量化

    • 多模态特征融合:中国科学技术大学团队提出通过引入超声舌头图像和唇部视频的联合建模,结合知识蒸馏技术,在训练阶段利用教师模型传递舌部运动知识,从而在推断时仅依赖唇部视频即可提升语音增强效果。此外,中科院声学所提出基于泰勒展开的模型架构,将幅度-相位解耦与空间-谱域解耦重新建模,提升算法可解释性并优化性能。
    • 轻量化模型设计:中国科大与腾讯天籁实验室合作提出轻量级音视频语音增强模型M3Net,通过多尺度特征聚合策略(如多尺度残差网络)在减少参数量的同时保持性能,适用于移动端部署。
  2. 相位谱优化与鲁棒性提升

    • 传统语音增强多关注幅度谱,而中科大团队提出的MP-SENet首次实现幅度和相位谱的并行去噪,通过抗卷绕损失函数优化相位预测,显著提升语音谐波恢复效果(PESQ得分达3.50)。
    • 鲁棒性方面,中科院声学所团队提出基于泰勒展开的端到端模型,通过替换不稳定数值操作为可学习模块,增强了算法在低信噪比环境下的稳定性。
http://www.dtcms.com/a/22168.html

相关文章:

  • js闭包,跨域
  • Effective C++读书笔记——item49(了解new-handle的行为)
  • 深度学习:从技术突破到未来展望
  • Linux系统 -- 环境安装,xshell和多用户,基本的Linux指令和Linux的用处
  • OpenCV中的边缘检测
  • 从低清到4K的魔法:FlashVideo突破高分辨率视频生成计算瓶颈(港大港中文字节)
  • Tomcat如何处理Http请求
  • 白话概念模型、逻辑模型与物理模型
  • ubuntu 安装 Redis
  • Java和JavaScript当中的json对象和json字符串分别讲解
  • Weather Regimes(WRs)方法介绍
  • 股指期货是什么?股指期货日内拐点有什么特征?
  • 备战蓝桥杯:贪心算法之货仓选址
  • 存储引擎---数据库
  • spring的核心配置
  • 什么是DNS?DNS解析的过程是怎样的?
  • Zookeeper分布式锁实现
  • rust学习笔记1-window安装开发环境
  • 上线了一个微软工具(免费),我独自开发,本篇有源码
  • python类方法名加前缀下划线
  • vue3的响应式的理解,与普通对象的区别(一)
  • 非docker安装open-webui连接ollama实现deepseek本地使用,集成其他openai模型,常见启动报错问题解决。
  • SpringAI-开启 Java AI 新纪元
  • Twitter 安卓客户端安装包下载
  • Linux——库函数
  • DeepSeek渣机部署编程用的模型,边缘设备部署模型
  • 【云安全】云原生- K8S etcd 未授权访问
  • Day1:强化学习基本概念
  • 2025最新Java面试题大全(整理版)2000+ 面试题附答案详解
  • 【linux】ubunbu切换到root