当前位置：首页 > news >正文

语音识别技术之FireRedASR

news 2025/10/23 7:19:57

FireRedASR

https://github.com/FireRedTeam/FireRedASR/

凭借最精确的CER指标、创新的Encoder-Adapter-LLM架构及优异的多源场景鲁棒性，FireRedASR-LLM-L确立了2025年中文ASR领域的新标杆。未来将进一步拓展多语种支持、优化长序列处理，并探索语音-视觉多模态交互应用。

项目：

FireRedASR-LLM 采用Encoder-Adapter-LLM架构，参数量8.3B，在多源、多场景（视频、直播、智能助手）均实现24%–40%相对CER下降，兼顾高精度与通用性。适用于对准确率要求极高且可投入计算资源的本地部署场景。model.aibase+2

FireRedASR-AED 基于Attention-AED架构，参数量1.1B，CER仅次于LLM版本，但显著降低计算开销。适合资源受限环境或作为语音表示模块嵌入更大系统。

必要硬件条件

GPU显存：单卡建议≥32GB，主流建议48GB（如A40、RTX A6000、RTX 6000 Ada）；社区反馈24GB单卡常见 OOM，不建议稳定生产。
GPU推荐型号：A40（数据中心/机架）、RTX 6000 Ada（工作站）、A100/A800 80GB（重型多路推理）、A6000（性价比兼容），高并发/长序列需求时优先更大显存和带宽。
CPU/内存：至少8-16核CPU，≥128GB RAM，多线程推理与音频处理建议更高配置。
存储：固态SSD建议≥1TB（模型权重、音频素材与缓存），系统磁盘需预留空间以防大模型权重多版本并存。
操作系统：Linux（Ubuntu 20.04+最佳），支持Python 3.10以上，依赖ffmpeg音频处理。
音频接口：输入16kHz单通道PCM格式最佳，建议CPU或GPU解码硬件直连。

模型CER对比

FireRedASR-LLM-L（8.3B参数）在四项公开普通话基准上取得平均字符错误率（CER）3.05%，相较Seed-ASR的3.33%实现8.4%相对CER减少

模型	参数量	aishell1	aishell2	ws_net	ws_meeting	平均CER
FireRedASR-LLM-L	8.3B	0.76	2.15	4.60	4.67	3.05
Seed-ASR	12B+	0.68	2.27	4.66	5.69	3.33
SenseVoice-L	1.6B	2.09	3.04	6.01	6.73	4.47
Qwen-Audio	8.4B	1.30	3.10	9.50	10.87	6.19
Whisper-Large-v3	1.6B	5.14	4.96	10.48	18.87	9.86
Paraformer-Large	0.2B	1.68	2.85	6.74	6.97	4.56

“参数量” 就是模型的总可训练参数数目，用于衡量模型规模；

“aishell1”和“aishell2” 是两个公开的普通话语音识别基准测试集，分别包含大约170小时（Aishell-1）和1 000小时（Aishell-2）的标注语音，用于评估模型在标准普通话条件下的识别准确度；

“ws_net”和“ws_meeting” 则来自WenetSpeech数据集的两个子集：“Net” 包含网络广播和网络视频中的普通话语音样本，

“Meeting” 包含多方会议场景下的普通话对话录音，用于测试模型在在线流媒体和会议环境下的鲁棒性。

FireRedASR-LLM-L 架构

FireRedASR-LLM-L采用编码器-适配器-LLM框架：

Conformer编码器：初始化自FireRedASR-AED大模型，进行80维Fbank特征下采样与序列建模。
轻量适配器：Linear-ReLU-Linear结构，将40ms帧间隔进一步拼接为80ms，并投影至LLM语义空间。
预训练LLM：基于Qwen2-7B-Instruct，通过LoRA对少数参数微调，实现prompt+语音嵌入的高效融合与端到端生成。

该机制通过最小化对LLM权重的改动，实现了高精度与高效训练的平衡。

总结：

LLM版本通过嵌入Qwen2-7B-Instruct模型，进行ASR转录后的文本进行上下文纠正大幅度提升了转录质量cer。
由于机器限制，实验主要用于AED，因为核心思想是一致，我们把转录的文本输出给qwen3/chatgpt来帮我们整理文本即可。

FireRedASR-AED-L环境配置

项目环境配置

git clone https://github.com/FireRedTeam/FireRedASR.git
conda create --name fireredasr python=3.10
conda activate fireredasr
pip install -r requirements.txt

export PATH=$PWD/fireredasr/:$PWD/fireredasr/utils/:$PATH
export PYTHONPATH=$PWD/:$PYTHONPATH

FireRedTeam/FireRedASR-AED-L模型下载

git lfs install
git clone https://www.modelscope.cn/FireRedTeam/FireRedASR-AED-L.git

使用

speech2text.py --wav_path /home/jbj/openai/modle/FireRedASR-AED-L/FireRedASR/examples/wav/out6.wav --asr_type "aed" --model_dir /home/jbj/openai/modle/FireRedASR-AED-L --use_gpu 0

在线测试音频

qwen3-asr-flash

https://qwen3-asr-studio.pages.dev/

FireRedASR-LLM

https://huggingface.co/spaces/FireRedTeam/FireRedASR

输出对比

https://textcompare.it.com/zh

可以看出，音频质量良好前提下，能够与qwen3ASR媲美。

参考资料

火红队 --- FireRedTeam (FireRedTeam)

火红 ASR --- FireRedASR

FireRedTeam/FireRedASR-LLM-L · Hugging Face

FireRedASR-LLM-L · 模型库

https://help.aliyun.com/zh/model-studio/qwen-speech-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2.2a626743YIFqFI

学习社区
https://github.com/0voice

查看全文

http://www.dtcms.com/a/515253.html

有什么指标可以判断手机是否降频

禾赛科技与广和通战略合作，联合推出机器人解决方案加速具身智能商业化落地

石家庄网站开发哪家好企业网站建设网站模板

Z3 Technology-适用于无人机和机器人的 4K 高清摄像机和视频编码器

济南天桥区做网站的怎样做app推广

建设河南网站外贸网站建设盲区

运维逆袭志·第4期 | 安全风暴的绝地反击：从告警地狱到智能防护

Java-集合求差集，如果B集合中的id在A集合中存在就移除，如果不在就返回A集合

微服务即时通讯系统——整体架构和组件(1)

WPF入门

WPF布局控件（界面骨架核心）

WPF 常用样式属性及示例笔记

【WPF】自定义颜色拾取器

MahApps.Metro WPF 开发使用过程中遇到的问题 - 未能加载文件或程序集“Microsoft.Xaml.Behaviors,

【普中Hi3861开发攻略--基于鸿蒙OS】-- 第 26 章 WIFI实验-AP 建立网络

ARM架构深度解析：ARMv7、ARMv8、ARMv9的技术演进、芯片实现与未来展望

线下剧本杀预约小程序核心功能玩法解析：轻量化载体重构娱乐消费生态

【矩阵分析与应用】【第8章特征分析】【8.3 凯莱-哈密顿定理求解矩阵高次幂详解】

合肥制作企业网站免费收录网站推广

阿里云安装docker-compose

Centos 7 ：VMware Tools 启动脚本未能在虚拟机中成功运行

基于vue的停车场管理系统

短剧小程序系统开发：开启影视娱乐新纪元

系统架构设计师备考第49天——数字孪生体云计算大数据技术

阿里云渠道商：阿里云哪些功能很必要？

鱼馆网站的前期策划网站审核备案几天

建设银行申请信用卡网站股权融资

即刻创作：用 Trickle + GLM-4.6 API 构建互动小说创作工具

标定系数为什么会存储在相机模组里面，在标定的时候，算法是在割草机的X3板上运行的啊？

windows系统安装wls/Ubuntu子系统教程