当前位置：首页 > news >正文

音频算法基础（语音识别 / 降噪 / 分离）

news 2025/8/2 16:53:53

秋招抱佛脚之作，大纲由GPT提供，内容由博主本人整理。

日更直到拿到满意的offer为止。

1. 声学与信号基础

采样率、Nyquist 定理 `★★★★★`

采样率：

Nyquist定理：

短时傅里叶变换（STFT/ISTFT） `★★★★★`

短时傅里叶变换：由于自然中的音频信号为在时间上连续的波形，为了便于处理，需要将其通过傅里叶变换得到离散的信号。

Mel 频率与 Mel 滤波器组 `★★★★★`

MFCC（梅尔倒谱系数）、CQT（常Q变换） `★★★★★`

窗函数（Hann、Hamming）与 N_FFT、Hop Length 参数含义 `★★★★★`

2. 语音识别（ASR）

CTC 原理（对齐、空白符、Beam Search） ★★★★★
Attention-CTC 混合模型 ★★★★☆
Transducer（RNN-T）结构 ★★★★☆
Whisper 模型（大规模多语言语音识别） ★★★★☆
VAD（语音活动检测）与流式识别 ★★★★★

3. 音频增强与降噪

传统方法：谱减法、Wiener 滤波 ★★★☆☆
深度方法：Conv-TasNet、Demucs、DCCRN、SEGAN ★★★★☆
自监督降噪方法（Noisy Student、Noise2Noise） ★★★☆☆
多通道阵列与波束形成（Beamforming） ★★★☆☆

4. 声源分离与多模态

盲源分离（ICA） ★★★☆☆
音视频联合建模（Lip reading, AV-Hubert） ★★★☆☆
多模态对齐（早融合、后融合、联合嵌入） ★★★☆☆

5. 评价指标与应用

PESQ（感知语音质量）、STOI（可懂度指标）、SNR ★★★★★
WER（字错误率）、CER（字符错误率） ★★★★★
端到端与模块化系统的优缺点对比 ★★★☆☆

查看全文

http://www.dtcms.com/a/304222.html

p5.js 三角形triangle的用法

中国贸促会融媒体中心出海活动负责人、出海星球创始人莅临绿算技术

FSMC的配置和应用

python类里面的魔法方法

某雷限制解除：轻松获取原始下载链接，支持多任务转换

运维笔记：HTTP 性能优化

python学习DAY26打卡

二叉树的最大路径和C++

2025手机软件上架各大应用市场大致流程

RabbitMQ消息确认机制有几个confirm？

面向对象系统的单元测试层次

Node.js 是怎么一步步撼动PHP地位的

C#基础篇 - 正则表达式入门

预过滤环境光贴图制作教程：第三阶段 - GGX 分布预过滤

Python爬虫实践：高效下载XKCD漫画全集

Vue3数组去重方法总结

数据赋能（342）——技术平台——容错性

oneapi本地部署接口测试（curl命令方式+postman方式）

git中多仓库工作的常用命令

C 语言第 12 天学习笔记：函数进阶应用与变量特性解析

Accessibility Insights for Windows 使用教程

【Nginx】Nginx进阶指南：解锁代理与负载均衡的多样玩法

Apache Ignite 的分布式锁Distributed Locks的介绍

VLA--Gemini Robotics On-Device: 将AI带到本地机器人设备上

SQL 怎么学？

小程序发票合并功能升级！发票夹直接选，操作更便捷

Kafka——消费者组重平衡全流程解析

idea运行tomcat日志乱码问题

Vue El 基础

考古学家 - 华为OD统一考试(JavaScript 题解)

音频算法基础（语音识别 / 降噪 / 分离）

1. 声学与信号基础

采样率、Nyquist 定理 `★★★★★`

短时傅里叶变换（STFT/ISTFT） `★★★★★`

Mel 频率与 Mel 滤波器组 `★★★★★`

MFCC（梅尔倒谱系数）、CQT（常Q变换） `★★★★★`

窗函数（Hann、Hamming）与 N_FFT、Hop Length 参数含义 `★★★★★`

2. 语音识别（ASR）

CTC 原理（对齐、空白符、Beam Search） `★★★★★`

Attention-CTC 混合模型 `★★★★☆`

Transducer（RNN-T）结构 `★★★★☆`

Whisper 模型（大规模多语言语音识别） `★★★★☆`

VAD（语音活动检测）与流式识别 `★★★★★`

3. 音频增强与降噪

传统方法：谱减法、Wiener 滤波 `★★★☆☆`

深度方法：Conv-TasNet、Demucs、DCCRN、SEGAN `★★★★☆`

自监督降噪方法（Noisy Student、Noise2Noise） `★★★☆☆`

多通道阵列与波束形成（Beamforming） `★★★☆☆`

4. 声源分离与多模态

盲源分离（ICA） `★★★☆☆`

音视频联合建模（Lip reading, AV-Hubert） `★★★☆☆`

多模态对齐（早融合、后融合、联合嵌入） `★★★☆☆`

5. 评价指标与应用

相关文章：

1. 声学与信号基础

采样率、Nyquist 定理 ★★★★★

短时傅里叶变换（STFT/ISTFT） ★★★★★

Mel 频率与 Mel 滤波器组 ★★★★★

MFCC（梅尔倒谱系数）、CQT（常Q变换） ★★★★★

窗函数（Hann、Hamming）与 N_FFT、Hop Length 参数含义 ★★★★★

2. 语音识别（ASR）

CTC 原理（对齐、空白符、Beam Search） ★★★★★

Attention-CTC 混合模型 ★★★★☆

Transducer（RNN-T）结构 ★★★★☆

Whisper 模型（大规模多语言语音识别） ★★★★☆

VAD（语音活动检测）与流式识别 ★★★★★

3. 音频增强与降噪

传统方法：谱减法、Wiener 滤波 ★★★☆☆

深度方法：Conv-TasNet、Demucs、DCCRN、SEGAN ★★★★☆

自监督降噪方法（Noisy Student、Noise2Noise） ★★★☆☆

多通道阵列与波束形成（Beamforming） ★★★☆☆

4. 声源分离与多模态

盲源分离（ICA） ★★★☆☆

音视频联合建模（Lip reading, AV-Hubert） ★★★☆☆

多模态对齐（早融合、后融合、联合嵌入） ★★★☆☆

5. 评价指标与应用

相关文章：

采样率、Nyquist 定理 `★★★★★`

短时傅里叶变换（STFT/ISTFT） `★★★★★`

Mel 频率与 Mel 滤波器组 `★★★★★`

MFCC（梅尔倒谱系数）、CQT（常Q变换） `★★★★★`

窗函数（Hann、Hamming）与 N_FFT、Hop Length 参数含义 `★★★★★`

CTC 原理（对齐、空白符、Beam Search） `★★★★★`

Attention-CTC 混合模型 `★★★★☆`

Transducer（RNN-T）结构 `★★★★☆`

Whisper 模型（大规模多语言语音识别） `★★★★☆`

VAD（语音活动检测）与流式识别 `★★★★★`

传统方法：谱减法、Wiener 滤波 `★★★☆☆`

深度方法：Conv-TasNet、Demucs、DCCRN、SEGAN `★★★★☆`

自监督降噪方法（Noisy Student、Noise2Noise） `★★★☆☆`

多通道阵列与波束形成（Beamforming） `★★★☆☆`

盲源分离（ICA） `★★★☆☆`

音视频联合建模（Lip reading, AV-Hubert） `★★★☆☆`

多模态对齐（早融合、后融合、联合嵌入） `★★★☆☆`