noScribe - 本地化AI音频转录工具
文章目录
- 一、关于 noScribe
- 1、项目概览
- 2、相关链接资源
- 二、安装配置
- Windows安装
- macOS安装
- Linux安装
- 三、使用指南
- 1、基本设置
- 2、高级功能
- 3、编辑器操作
- 四、注意事项
- 性能要求
- 质量影响因素
- 已知问题
- 五、开发相关
一、关于 noScribe
1、项目概览
- 基于AI的开源软件,专为社会科学研究和新闻采访设计的音频转录工具
- 核心特性:
- 完全本地运行(无需联网/云服务)
- 支持约60种语言的转录
- 自动区分不同说话者
- 内置带时间戳标记的文本编辑器
- 技术基础:
- OpenAI Whisper
- faster-whisper
- pyannote音频处理框架
2、相关链接资源
- GitHub仓库:https://github.com/kaixxx/noScribe
- 许可证:GPL-3.0
- 编辑器源码:https://github.com/kaixxx/noScribeEditor
- 相关研究:
- 康奈尔大学关于AI幻觉的研究
- 帕德博恩大学评测报告(德文)
- 推荐工具:
- QualCoder
- Taguette
二、安装配置
当前版本:0.6.2 (更新日志)
Windows安装
# 通用版本(无NVIDIA显卡):
<https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI?path=%2FWindows%2Fnormal2># CUDA加速版本(需NVIDIA显卡+6GB显存):
<https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI?path=%2FWindows%2Fcuda1>
# 需额外安装[CUDA工具包](https://developer.nvidia.com/cuda-downloads?target_os=Windows)
macOS安装
# Apple Silicon版本:
<https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI?path=%2FmacOS%2Farm64%20(Apple%20Silicon)># Intel芯片实验版:
<https://github.com/kaixxx/noScribe/discussions/143>
Linux安装
# 预编译版本:
<https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI?path=%2FLinux># 源码编译(需Python 3.12):
git clone https://github.com/kaixxx/noScribe.git
cd noScribe
python3 -m venv .venv
source .venv/bin/activate
pip install -r environments/requirements_linux.txt
三、使用指南
1、基本设置
- 音频输入:支持绝大多数音视频格式
- 输出格式:HTML(默认)/VTT字幕/TXT纯文本
- 语言识别:支持自动检测或手动指定60+语言
- 质量预设:
- Precise模式(高精度,推荐)
- Fast模式(快速但需更多人工校对)
2、高级功能
- 静音段标记(可设1-3秒阈值)
- 说话人分离(基于Pyannote模型)
- 重叠语音检测(实验性功能)
- 时间戳插入(每60秒或说话人切换时)
3、编辑器操作
- 快捷键
Ctrl+Space
播放对应音频 - 实时文本-音频同步定位
- 说话人名称批量替换
- 支持0.5x-2x倍速播放
四、注意事项
性能要求
- 需较新硬件配置(1小时音频约需3小时处理时间)
- 模型文件大小约3.7GB
- 不建议使用电池供电运行
质量影响因素
- 录音质量(背景噪声会显著影响准确率)
- 语言支持度(拉丁语系最佳)
- 方言处理(需更多人工修正)
已知问题
- 长音频可能出现文本循环重复
- 多语言混合录音仍为实验性功能
- 非语言声音(如笑声)需手动添加
- 可能出现AI幻觉(将噪声误识为文本)
五、开发相关
- 开发语言:Python 3.12
- 配置文件路径:
- Windows:
C:\Users\<username>\AppData\Local\noScribe\
- macOS:
~/Library/Application Support/noscribe/
- Windows:
- 多语言支持:通过
trans
目录下的YAML文件实现
伊织 xAI 2025-09-23(二)