语音识别技术之FireRedASR
FireRedASR
https://github.com/FireRedTeam/FireRedASR/
凭借最精确的CER指标、创新的Encoder-Adapter-LLM架构及优异的多源场景鲁棒性,FireRedASR-LLM-L确立了2025年中文ASR领域的新标杆。未来将进一步拓展多语种支持、优化长序列处理,并探索语音-视觉多模态交互应用。
项目:
FireRedASR-LLM 采用Encoder-Adapter-LLM架构,参数量8.3B,在多源、多场景(视频、直播、智能助手)均实现24%–40%相对CER下降,兼顾高精度与通用性。适用于对准确率要求极高且可投入计算资源的本地部署场景。model.aibase+2
FireRedASR-AED 基于Attention-AED架构,参数量1.1B,CER仅次于LLM版本,但显著降低计算开销。适合资源受限环境或作为语音表示模块嵌入更大系统。
必要硬件条件
-
GPU显存:单卡建议≥32GB,主流建议48GB(如A40、RTX A6000、RTX 6000 Ada);社区反馈24GB单卡常见 OOM,不建议稳定生产。
-
GPU推荐型号:A40(数据中心/机架)、RTX 6000 Ada(工作站)、A100/A800 80GB(重型多路推理)、A6000(性价比兼容),高并发/长序列需求时优先更大显存和带宽。
-
CPU/内存:至少8-16核CPU,≥128GB RAM,多线程推理与音频处理建议更高配置。
-
存储:固态SSD建议≥1TB(模型权重、音频素材与缓存),系统磁盘需预留空间以防大模型权重多版本并存。
-
操作系统:Linux(Ubuntu 20.04+最佳),支持Python 3.10以上,依赖ffmpeg音频处理。
-
音频接口:输入16kHz单通道PCM格式最佳,建议CPU或GPU解码硬件直连。
模型CER对比
FireRedASR-LLM-L(8.3B参数)在四项公开普通话基准上取得平均字符错误率(CER)3.05%,相较Seed-ASR的3.33%实现8.4%相对CER减少
模型 | 参数量 | aishell1 | aishell2 | ws_net | ws_meeting | 平均CER |
---|---|---|---|---|---|---|
FireRedASR-LLM-L | 8.3B | 0.76 | 2.15 | 4.60 | 4.67 | 3.05 |
Seed-ASR | 12B+ | 0.68 | 2.27 | 4.66 | 5.69 | 3.33 |
SenseVoice-L | 1.6B | 2.09 | 3.04 | 6.01 | 6.73 | 4.47 |
Qwen-Audio | 8.4B | 1.30 | 3.10 | 9.50 | 10.87 | 6.19 |
Whisper-Large-v3 | 1.6B | 5.14 | 4.96 | 10.48 | 18.87 | 9.86 |
Paraformer-Large | 0.2B | 1.68 | 2.85 | 6.74 | 6.97 | 4.56 |
“参数量” 就是模型的总可训练参数数目,用于衡量模型规模;
“aishell1”和“aishell2” 是两个公开的普通话语音识别基准测试集,分别包含大约170小时(Aishell-1)和1 000小时(Aishell-2)的标注语音,用于评估模型在标准普通话条件下的识别准确度;
“ws_net”和“ws_meeting” 则来自WenetSpeech数据集的两个子集:“Net” 包含网络广播和网络视频中的普通话语音样本,
“Meeting” 包含多方会议场景下的普通话对话录音,用于测试模型在在线流媒体和会议环境下的鲁棒性。
FireRedASR-LLM-L 架构
FireRedASR-LLM-L采用编码器-适配器-LLM框架:
-
Conformer编码器:初始化自FireRedASR-AED大模型,进行80维Fbank特征下采样与序列建模。
-
轻量适配器:Linear-ReLU-Linear结构,将40ms帧间隔进一步拼接为80ms,并投影至LLM语义空间。
-
预训练LLM:基于Qwen2-7B-Instruct,通过LoRA对少数参数微调,实现prompt+语音嵌入的高效融合与端到端生成。
该机制通过最小化对LLM权重的改动,实现了高精度与高效训练的平衡。
总结:
-
LLM版本通过嵌入Qwen2-7B-Instruct模型,进行ASR转录后的文本进行上下文纠正大幅度提升了转录质量cer。
-
由于机器限制,实验主要用于AED,因为核心思想是一致,我们把转录的文本输出给qwen3/chatgpt来帮我们整理文本即可。
FireRedASR-AED-L环境配置
项目环境配置
git clone https://github.com/FireRedTeam/FireRedASR.git conda create --name fireredasr python=3.10 conda activate fireredasr pip install -r requirements.txt export PATH=$PWD/fireredasr/:$PWD/fireredasr/utils/:$PATH export PYTHONPATH=$PWD/:$PYTHONPATH
FireRedTeam/FireRedASR-AED-L模型下载
git lfs install git clone https://www.modelscope.cn/FireRedTeam/FireRedASR-AED-L.git
使用
speech2text.py --wav_path /home/jbj/openai/modle/FireRedASR-AED-L/FireRedASR/examples/wav/out6.wav --asr_type "aed" --model_dir /home/jbj/openai/modle/FireRedASR-AED-L --use_gpu 0
在线测试音频
qwen3-asr-flash
https://qwen3-asr-studio.pages.dev/
FireRedASR-LLM
https://huggingface.co/spaces/FireRedTeam/FireRedASR
输出对比
https://textcompare.it.com/zh
可以看出,音频质量良好前提下,能够与qwen3ASR媲美。
参考资料
火红队 --- FireRedTeam (FireRedTeam)
火红 ASR --- FireRedASR
FireRedTeam/FireRedASR-LLM-L · Hugging Face
FireRedASR-LLM-L · 模型库
https://help.aliyun.com/zh/model-studio/qwen-speech-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2.2a626743YIFqFI
学习社区
https://github.com/0voice