当前位置: 首页 > news >正文

noScribe - 本地化AI音频转录工具

文章目录

    • 一、关于 noScribe
      • 1、项目概览
      • 2、相关链接资源
    • 二、安装配置
      • Windows安装
      • macOS安装
      • Linux安装
    • 三、使用指南
      • 1、基本设置
      • 2、高级功能
      • 3、编辑器操作
    • 四、注意事项
      • 性能要求
      • 质量影响因素
      • 已知问题
    • 五、开发相关


一、关于 noScribe

1、项目概览

  • 基于AI的开源软件,专为社会科学研究新闻采访设计的音频转录工具
  • 核心特性:
    • 完全本地运行(无需联网/云服务)
    • 支持约60种语言的转录
    • 自动区分不同说话者
    • 内置带时间戳标记的文本编辑器
  • 技术基础:
    • OpenAI Whisper
    • faster-whisper
    • pyannote音频处理框架

在这里插入图片描述


2、相关链接资源

  • GitHub仓库:https://github.com/kaixxx/noScribe
  • 许可证:GPL-3.0
  • 编辑器源码:https://github.com/kaixxx/noScribeEditor
  • 相关研究:
    • 康奈尔大学关于AI幻觉的研究
    • 帕德博恩大学评测报告(德文)
  • 推荐工具:
    • QualCoder
    • Taguette

二、安装配置

当前版本:0.6.2 (更新日志)

Windows安装

# 通用版本(无NVIDIA显卡):
<https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI?path=%2FWindows%2Fnormal2># CUDA加速版本(需NVIDIA显卡+6GB显存):
<https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI?path=%2FWindows%2Fcuda1>
# 需额外安装[CUDA工具包](https://developer.nvidia.com/cuda-downloads?target_os=Windows)

macOS安装

# Apple Silicon版本:
<https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI?path=%2FmacOS%2Farm64%20(Apple%20Silicon)># Intel芯片实验版:
<https://github.com/kaixxx/noScribe/discussions/143>

Linux安装

# 预编译版本:
<https://drive.switch.ch/index.php/s/HtKDKYRZRNaYBeI?path=%2FLinux># 源码编译(需Python 3.12):
git clone https://github.com/kaixxx/noScribe.git
cd noScribe
python3 -m venv .venv
source .venv/bin/activate
pip install -r environments/requirements_linux.txt

三、使用指南

1、基本设置

  • 音频输入:支持绝大多数音视频格式
  • 输出格式:HTML(默认)/VTT字幕/TXT纯文本
  • 语言识别:支持自动检测或手动指定60+语言
  • 质量预设
    • Precise模式(高精度,推荐)
    • Fast模式(快速但需更多人工校对)

2、高级功能

  • 静音段标记(可设1-3秒阈值)
  • 说话人分离(基于Pyannote模型)
  • 重叠语音检测(实验性功能)
  • 时间戳插入(每60秒或说话人切换时)

3、编辑器操作

  • 快捷键Ctrl+Space播放对应音频
  • 实时文本-音频同步定位
  • 说话人名称批量替换
  • 支持0.5x-2x倍速播放

四、注意事项

性能要求

  • 需较新硬件配置(1小时音频约需3小时处理时间)
  • 模型文件大小约3.7GB
  • 不建议使用电池供电运行

质量影响因素

  1. 录音质量(背景噪声会显著影响准确率)
  2. 语言支持度(拉丁语系最佳)
  3. 方言处理(需更多人工修正)

已知问题

  • 长音频可能出现文本循环重复
  • 多语言混合录音仍为实验性功能
  • 非语言声音(如笑声)需手动添加
  • 可能出现AI幻觉(将噪声误识为文本)

五、开发相关

  • 开发语言:Python 3.12
  • 配置文件路径:
    • Windows: C:\Users\<username>\AppData\Local\noScribe\
    • macOS: ~/Library/Application Support/noscribe/
  • 多语言支持:通过trans目录下的YAML文件实现

伊织 xAI 2025-09-23(二)

http://www.dtcms.com/a/414697.html

相关文章:

  • 【数据挖掘】基于随机森林回归模型的二手车价格预测分析(数据集+源码)
  • 国外做珠宝的网站有哪些贵阳市做网站电话
  • 有网站后台网站默认样式表
  • git仓库常用命令
  • 1网站建设的目标是什么意思南阳专业做网站公司
  • 基于LLM的智能GDB分析工具方案设计
  • 机器人动力学模型的快速入门介绍
  • 公司官网模板泰州网站优化公司
  • 小迪web自用笔记39
  • LeetCode 199.二叉树的右视图
  • 湖州 网站建设公司哪家好旺道seo优化
  • Linux jq 命令详解及应用场景
  • 第 5 篇:WebGL 从 2D 到 3D - 坐标系、透视与相机
  • 文字转语音——sherpa-onnx语音识别离线部署C++实现
  • 深度学习------专题《图像处理项目》下
  • wordpress 伪链接昭通seo
  • 【rabbitmq 高级特性】全面详解RabbitMQ TTL (Time To Live)
  • STM32启动流程全面解析:从上电复位到进入应用程序main函数
  • QQ可以在网站做临时会话么ysl免费网站建设
  • 做网站的女生多么镇江市住房城乡建设局网站
  • 后端两个接口需分开写,前端需不串行并同时刷新调用但数据不同步NOTE
  • 华北建设集团有限公司oa网站上海旅游网站建设情况
  • Appinventor笔记4-数字块与文本块
  • 龙溪营销型网站制作上海官网
  • 支付方式大升级!AI代理将进入购物环节
  • 前端实验(序)——前端开发基础
  • reset saved-configuration 概念及题目
  • 口腔病变识别分割数据集labelme格式1317张1类别
  • 做网站的qq兼职网易企业邮箱登录登录入口
  • 【开题答辩全过程】以 springboot毕业设计管理系统为例,包含答辩的问题和答案