当前位置: 首页 > news >正文

音频算法基础(语音识别 / 降噪 / 分离)

秋招抱佛脚之作,大纲由GPT提供,内容由博主本人整理。

日更直到拿到满意的offer为止。

1. 声学与信号基础

采样率、Nyquist 定理 ★★★★★

采样率:

Nyquist定理:

短时傅里叶变换(STFT/ISTFT) ★★★★★

短时傅里叶变换:由于自然中的音频信号为在时间上连续的波形,为了便于处理,需要将其通过傅里叶变换得到离散的信号。

Mel 频率与 Mel 滤波器组 ★★★★★

MFCC(梅尔倒谱系数)、CQT(常Q变换) ★★★★★

窗函数(Hann、Hamming)与 N_FFT、Hop Length 参数含义 ★★★★★

2. 语音识别(ASR)

  • CTC 原理(对齐、空白符、Beam Search) ★★★★★

  • Attention-CTC 混合模型 ★★★★☆

  • Transducer(RNN-T)结构 ★★★★☆

  • Whisper 模型(大规模多语言语音识别) ★★★★☆

  • VAD(语音活动检测)与流式识别 ★★★★★

3. 音频增强与降噪

  • 传统方法:谱减法、Wiener 滤波 ★★★☆☆

  • 深度方法:Conv-TasNet、Demucs、DCCRN、SEGAN ★★★★☆

  • 自监督降噪方法(Noisy Student、Noise2Noise) ★★★☆☆

  • 多通道阵列与波束形成(Beamforming) ★★★☆☆

4. 声源分离与多模态

  • 盲源分离(ICA) ★★★☆☆

  • 音视频联合建模(Lip reading, AV-Hubert) ★★★☆☆

  • 多模态对齐(早融合、后融合、联合嵌入) ★★★☆☆

5. 评价指标与应用

  • PESQ(感知语音质量)、STOI(可懂度指标)、SNR ★★★★★

  • WER(字错误率)、CER(字符错误率) ★★★★★

  • 端到端与模块化系统的优缺点对比 ★★★☆☆

http://www.dtcms.com/a/304222.html

相关文章:

  • p5.js 三角形triangle的用法
  • 中国贸促会融媒体中心出海活动负责人、出海星球创始人莅临绿算技术
  • FSMC的配置和应用
  • python类里面的魔法方法
  • 某雷限制解除:轻松获取原始下载链接,支持多任务转换
  • 运维笔记:HTTP 性能优化
  • python学习DAY26打卡
  • 二叉树的最大路径和C++
  • 2025手机软件上架各大应用市场大致流程
  • RabbitMQ消息确认机制有几个confirm?
  • 面向对象系统的单元测试层次
  • Node.js 是怎么一步步撼动PHP地位的
  • C#基础篇 - 正则表达式入门
  • 预过滤环境光贴图制作教程:第三阶段 - GGX 分布预过滤
  • Python爬虫实践:高效下载XKCD漫画全集
  • Vue3数组去重方法总结
  • 数据赋能(342)——技术平台——容错性
  • oneapi本地部署接口测试(curl命令方式+postman方式)
  • git中多仓库工作的常用命令
  • C 语言第 12 天学习笔记:函数进阶应用与变量特性解析
  • Accessibility Insights for Windows 使用教程
  • 【Nginx】Nginx进阶指南:解锁代理与负载均衡的多样玩法
  • Apache Ignite 的分布式锁Distributed Locks的介绍
  • VLA--Gemini Robotics On-Device: 将AI带到本地机器人设备上
  • SQL 怎么学?
  • 小程序发票合并功能升级!发票夹直接选,操作更便捷
  • Kafka——消费者组重平衡全流程解析
  • idea运行tomcat日志乱码问题
  • Vue El 基础
  • 考古学家 - 华为OD统一考试(JavaScript 题解)