当前位置：首页 > news >正文

Voxtral Mini：语音转文本工具，支持超长音频，多国语音

news 2025/7/27 5:51:20

Voxtral是什么

Mistral AI 推出的 Voxtral 是一款强大的音频模型，专为语音交互打造，具备卓越的语音转写和语义理解能力。它提供 24B 和 3B 两种版本，分别适用于大规模生产和本地部署。Voxtral 支持多语言、长文本上下文、问答与总结，还可直接调用后端功能。在多个基准测试中，Voxtral 超越了现有开源和商业模型，兼具高性能与低成本，适用于多种语音交互场景。

Voxtral的主要功能

Voxtral 拥有出色的长文本处理能力，支持最长 30 分钟的音频转录和 40 分钟的语义理解，轻松应对复杂内容。
它内置问答与总结功能，可直接对音频提问或生成结构化摘要，无需依赖额外模型。
在语言支持方面，Voxtral具备自动语言检测能力，覆盖英语、西班牙语、法语、葡萄牙语、印地语、德语等多种常用语言，适用于全球用户。
用户还可通过语音直接触发功能调用，跳过中间解析步骤，大幅提升交互效率。
此外，Voxtral 继承了 Mistral Small 3.1 的文本理解能力，支持文本输入和处理。其优化的转录性能不仅准确率高，还具备良好的成本优势，特别适合大规模部署。

Voxtral的技术原理

Voxtral 采用先进的深度学习技术，基于 Transformer 架构训练，具备强大的语音识别和理解能力。它使用海量语音数据训练，能准确转录多语言语音内容，并通过统一的模型架构实现自动语言识别与处理。

得益于支持 32k token 的长文本上下文，Voxtral 在语义理解和逻辑推理上表现出色，转录更精准。它还整合了语音识别与自然语言理解，实现端到端处理，直接从语音生成文本、回答问题或触发操作，显著简化传统流程，降低出错率。

Voxtral的项目地址

HuggingFace模型库

https://huggingface.co/mistralai/Voxtral-Small-24B-2507
https://huggingface.co/mistralai/Voxtral-Mini-3B-2507

Voxtral的应用场景

会议记录
实时转写并自动生成结构化要点，会议一结束即可快速回顾。
客户服务
转录客服对话，精准捕捉需求并直连后台流程，效率倍增。
内容创作
采访、播客、视频音频一键成文，字幕与稿件轻松产出。
教育场景
在线课程与讲座实时转写，支持现场提问，学习更沉浸。
智能助手
作为语音交互核心，秒懂指令并执行，适配智能家居与办公设备。

视频介绍

Voxtral

快速上手指南

AI工具已经被打包成一键启动的版本，只需轻轻点击即可使用，无需再为环境配置中的各种问题烦恼，一切变得更加便捷高效。

电脑配置要求

操作系统：Windows 10/11 64位
内存：20G以上
显卡：至少12G及以上显存的英伟达（NVIDIA）显卡，音频越长对显存要求越高，长音频建议分割处理
CUDA：显卡驱动更新到最新后，支持的CUDA版本大于等于12.8版本
整合包解压完约43.4G，要留足硬盘空间
如果电脑配置不满足要求的话，点我使用4090最强性能运行！

如何查看显卡品牌型号和显存：

打开任务管理器
点击“性能”
点击“GPU”
右上角可以看到显卡型号，下方可以看到显存大小

使用教程：

① 打开下载页面：

(方式1)直达链接：https://xyanai.com/2069.html
(方式2)进入官网www.xyanai.com，搜索”Voxtral”

进入后点击页面右侧下载按钮，下载整合包之后解压，建议使用winrar解压（解压软件在文件包中，或者可以自己下载安装，下载地址：https://www.winrar.com.cn/）

不要用Windows自带解压！！不要用360解压！！

注意：文件夹路径和文件名称（包括音频、图片、视频等文件名称）不要出现中文字符，否则部分软件会因识别不出而报错

② 双击“启动程序.exe”，稍等片刻会在浏览器中自动打开操作界面

③上传音频文件，选择转录语言，（可选）设置最大输出长度，点击开始转录，转录结果位于右侧。注意：音频越长对显存要求越高，长音频建议分割处理

结果展示：

结语

Voxtral 是 Mistral AI 推出的多语言音频模型，支持语音转录、语义理解、问答和总结等功能，适用于会议记录、客服、内容创作、教育和智能助手等场景。它具备长文本处理、端到端语音理解、语音触发操作等能力，性能领先、成本低，是推动语音交互落地的强大工具。

http://www.dtcms.com/a/299165.html

相关文章：

VMware Workstation17下安装Ubuntu20.04

Qt 线程池设计与实现

面试150 只出现一次的数字

Pinia快速入门

大模型面试回答，介绍项目

Flutter实现Retrofit风格的网络请求封装

Qt 线程同步机制：互斥锁、信号量等

VTK交互——ImageRegion

Mixture-of-Recursions: 混合递归模型，通过学习动态递归深度，以实现对自适应Token级计算的有效适配

RK3568笔记九十二：QT使用Opencv显示摄像头

基于RK3588+国产实时系统的隧道掘进机智能操控终端应用

NOIP普及组|2009T1多项式输出

20250726让荣品的PRO-RK3566开发板通过TF卡刷Buildroot系统

详解力扣高频SQL50题之1141. 查询近30天活跃用户数【简单】

工具 | 解决 VSCode 中的 Delete CR 问题

黑屏运维OceanBase数据库的常见案例

Java中配置两个r2db连接不同的数据库

LeetCode 854：相似度为 K 的字符串

RabbitMQ面试精讲 Day 5：Virtual Host与权限控制

力扣 hot100 Day56

香港本地和国际金融科技应用

比特币如何实现去中心化？技术架构与机制解析

2025年7月26日训练日志

MySQL 基本查询

SGLang 核心技术详解

IPSec IKE端口理解

Bert项目--新闻标题文本分类

备份一下我的 mac mini 的环境变量配置情况

Java基础-文件操作

尝试几道算法题，提升python编程思维