当前位置：首页 > news >正文

开源实时语音交互大模型Ultravox-cn

news 2025/10/15 14:58:38

Ultravox

一款为实时语音交互设计的快速多模态LLM

概述

Ultravox是一种新型的多模态LLM，能够理解文本和人类语音，无需单独的自动语音识别（ASR）阶段。基于AudioLM、SeamlessM4T、Gazelle、SpeechGPT等研究，Ultravox能够将任何开放权重LLM扩展为一个多模态投影器，直接将音频转换为LLM使用的高维空间。

ultravox官方仓库：https://github.com/fixie-ai/ultravox

ultravox-cn仓库：https://github.com/seanzhang-zhichen/ultravox-cn

由于官方版本模型对中文支持较差，因此，我们训练了基于Qwen2.5-7B-Instruct和whisper-large-v3-turbo的中文友好的语音多模态模型

架构

在这里插入图片描述

效果

在这里插入图片描述

模型

Huggingface下载地址：https://huggingface.co/zhichen/ultravox-cn
Modelscope下载地址：https://modelscope.cn/models/seanzhang/ultravox-cn

环境设置

安装just

git clone https://github.com/seanzhang-zhichen/ultravox-cn.git
cd ultravox-cn
sudo apt-get install just
conda create -n ultravox python=3.11
conda activate ultravox
just install

模型准备

运行demo前，需准备以下模型：

Qwen2.5-7B-Instruct
whisper-large-v3-turbo
seanzhang/ultravox-cn

以上模型准备好后，修改seanzhang/ultravox-cn/config.json中的audio_model_id为本地whisper-large-v3-turbo路径，text_model_id为本地Qwen2.5-7B-Instruct路径。

在这里插入图片描述

Web Demo

python ultravox/tools/gradio_demo.py --model_path seanzhang/ultravox-cn（或本地路径）

查看全文

http://www.dtcms.com/a/129647.html

zynq7020 u-boot 速通

发送加密信息的简单实现【Java】

Linux下python虚拟环境搭建及使用

k8s 部署spring项目+动态启动pod

【漫话机器学习系列】199.过拟合 vs 欠拟合（Overfit vs Underfit）

常见的归一化（Normalization）方法

【高并发内存池】从零到一的项目:项目介绍、内存池及定长内存池的设计

关于MOS的二十个问题

学习SqlSugar的跨库查询基本用法

【JavaEE】SpringBoot 统一功能处理

视觉SLAM十四讲2nd—学习笔记（一）

isce+mintpy水体掩膜

“堆积木”式话云原生微服务架构（第一回）

Autosar Nm开发问题-部分网络管理报文无法维持网络唤醒

论文阅读笔记——Reactive Diffusion Policy

基于51单片机的正负5V数字电压表( proteus仿真+程序+设计报告+讲解视频）

Maven java 项目引入2.0.16版本的slf4j-api后，提示jedis:5.1.0的子依赖slf4j-api:1.7.36与2.0.16冲突

(PC+WAP)大气滚屏网站模板电气电力设备网站源码下载

llm开发框架新秀

从 MySQL 切换到国产 YashanDB 数据库时，需要在数据库字段和应用连接方面进行适配 ,使用总结

HarmonyOS-ArkUI V2装饰器: @Provider和@Consumer装饰器：跨组件层级双向同步

聊天室项目day4(redis实现验证码期限，实现redis连接池)

2025年3月 Scratch图形化三级真题解析中国电子学会全国青少年软件编程等级考试

【愚公系列】《Python网络爬虫从入门到精通》050-搭建 Scrapy 爬虫框架

oracle COUNT(1) 和 COUNT(*)

HTTP实现心跳模块

吴恩达深度学习复盘(15)精度和召回率

八大排序算法

JavaScript 定时器

Go语言--语法基础4--基本数据类型--整数类型

一款为实时语音交互设计的快速多模态LLM

概述

架构

效果

模型

环境设置

模型准备

Web Demo

相关文章：